日本熟妇%20孕交，av在线精品免费看，free欧美日韩免费在线观看，免费在线无码视频，日韩欧美体验一区，超碰97 国产在线，午夜福利在线观看永久视频，日韩一区二区无码一区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

大模型真的在吞噬人類的一切數(shù)據(jù)嗎？

硅星人

2024-07-12

0 評(píng)論 1450 瀏覽 1 收藏

23 分鐘

隨著大模型對(duì)數(shù)據(jù)的大量需求，人們開(kāi)始擔(dān)憂數(shù)據(jù)資源是否會(huì)被耗盡。本文將探討大模型是否真的在吞噬人類的一切數(shù)據(jù)，以及這一現(xiàn)象對(duì)AI未來(lái)發(fā)展的潛在影響。

在弗蘭克·赫伯特的《沙丘》中，沙漠星球厄拉科斯的沙丘下隱藏著一種無(wú)價(jià)之寶：香料。

這種神秘物質(zhì)使太空旅行成為可能，能延長(zhǎng)壽命，并具有擴(kuò)展意識(shí)的效果，是宇宙中最寶貴的財(cái)富?！罢l(shuí)控制了香料，誰(shuí)就控制了宇宙”。正如香料在《沙丘》宇宙中占據(jù)著至關(guān)重要的地位一樣，在當(dāng)今的生成式人工智能時(shí)代，數(shù)據(jù)也承載著類似角色。

就像《沙丘》中對(duì)香料的爭(zhēng)奪，現(xiàn)實(shí)世界里各方勢(shì)力也在為數(shù)據(jù)資源展開(kāi)激烈角逐。海量的數(shù)據(jù)如同埋藏在數(shù)字世界沙丘下的“香料”，蘊(yùn)藏著難以估量的價(jià)值。而那些能夠高效采集、管理和利用數(shù)據(jù)的企業(yè)，就像小說(shuō)中控制香料的勢(shì)力，在這場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)中占據(jù)著優(yōu)勢(shì)地位。

如同香料在《沙丘》宇宙中的供應(yīng)并不是無(wú)限的如果開(kāi)采過(guò)度或生態(tài)系統(tǒng)受到破壞，香料的產(chǎn)量可能會(huì)大幅減少甚至耗盡，數(shù)據(jù)也可能被耗盡。根據(jù)非營(yíng)利研究機(jī)構(gòu)Epoch AI的最新論文，大語(yǔ)言模型會(huì)在2028年耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)。

大模型真的在吞噬人類的一切數(shù)據(jù)嗎？我們是否正處在一個(gè)看似無(wú)盡的數(shù)字香料狂潮中，不斷地向這些饑渴的大模型提供養(yǎng)分？

預(yù)計(jì)在未來(lái)幾年內(nèi)可能會(huì)耗盡現(xiàn)有的公共文本數(shù)據(jù)存量

人類生成的數(shù)據(jù)量有限，一旦這些文本數(shù)據(jù)被耗盡，可能會(huì)成為約束語(yǔ)言模型繼續(xù)擴(kuò)展的主要瓶頸。相關(guān)論文認(rèn)為，語(yǔ)言模型將在2026年到2032年之間利用完這些數(shù)據(jù)，但如果考慮到利潤(rùn)最大化，過(guò)度訓(xùn)練數(shù)據(jù)可能會(huì)導(dǎo)致數(shù)據(jù)在2025年就被用完。

月之暗面創(chuàng)始人楊植麟也在近期表達(dá)了類似觀點(diǎn)，他認(rèn)為大模型通向AGI最大的挑戰(zhàn)是數(shù)據(jù)。楊植麟表示，“假設(shè)你想最后做一個(gè)比人類更好的AI，但可能根本不存在這樣的數(shù)據(jù)，因?yàn)楝F(xiàn)在所有的數(shù)據(jù)都是人產(chǎn)生的。所以最大的問(wèn)題是怎么解決這些比較稀缺、甚至一些不存在的數(shù)據(jù)?！?/p>

根據(jù)Epoch研究員Pablo Villalobos的觀點(diǎn)，OpenAI在訓(xùn)練GPT-4時(shí)使用了大約1200萬(wàn)個(gè)token，GPT-5需要60到100萬(wàn)億個(gè)token才能跟上預(yù)期的增長(zhǎng)。關(guān)鍵在于即使用盡互聯(lián)網(wǎng)上所有可能的高質(zhì)量數(shù)，仍然需要10萬(wàn)到20萬(wàn)億token，甚至更多。

面對(duì)如此龐大的數(shù)據(jù)需求，合成數(shù)據(jù)也是一個(gè)學(xué)術(shù)界和產(chǎn)業(yè)界都在嘗試的重要方向。合成數(shù)據(jù)基于現(xiàn)有數(shù)據(jù)進(jìn)行擴(kuò)充，這種能力對(duì)未來(lái)的訓(xùn)練數(shù)據(jù)規(guī)模至關(guān)重要。不過(guò)，用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練也存在一些局限性，例如可能導(dǎo)致模型崩潰等問(wèn)題。

目前，大模型廠商主要從網(wǎng)絡(luò)上抓取科學(xué)論文、新聞文章、維基百科等公開(kāi)信息來(lái)訓(xùn)練模型。從長(zhǎng)遠(yuǎn)來(lái)看，僅依靠新聞文章和社交媒體等內(nèi)容可能無(wú)法維持人工智能的發(fā)展需求。這可能迫使企業(yè)開(kāi)始利用一些敏感的私有數(shù)據(jù)，如電子郵件、聊天記錄等，或不得不依賴于聊天機(jī)器人自身生成的質(zhì)量不高的數(shù)據(jù)。

一、數(shù)據(jù)不夠用是“杞人憂天”？

沒(méi)有數(shù)據(jù)就無(wú)法訓(xùn)練大語(yǔ)言模型，但數(shù)據(jù)真的不夠用了嗎？對(duì)于這一問(wèn)題，也有人持有不一樣的觀點(diǎn)。

星環(huán)科技孫元浩認(rèn)為，這是一個(gè)“假新聞的判斷”。在他看來(lái)，除了現(xiàn)有互聯(lián)網(wǎng)的存量數(shù)據(jù)，各個(gè)企業(yè)內(nèi)部還有大量的數(shù)據(jù)沒(méi)有被利用，“現(xiàn)在數(shù)據(jù)多到遠(yuǎn)遠(yuǎn)超過(guò)模型可以處理的量”。

“大模型結(jié)構(gòu)和訓(xùn)練方法都不是秘密了，而語(yǔ)料散落在各種地方，需要把現(xiàn)有語(yǔ)料整理起來(lái)訓(xùn)練或微調(diào)模型，工作量非常巨大，這是目前最大的挑戰(zhàn)。”孫元浩告訴硅星人。

其中的一個(gè)重要問(wèn)題，是數(shù)據(jù)處理范式從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變。結(jié)構(gòu)化數(shù)據(jù)，例如數(shù)據(jù)庫(kù)中的表格數(shù)據(jù)，有明確的字段和格式，易于存儲(chǔ)和查詢。而文本文檔、合同協(xié)議、教材等非結(jié)構(gòu)化數(shù)據(jù)，雖然包含豐富的信息和知識(shí)，但由于缺乏統(tǒng)一的格式，難以直接存儲(chǔ)和檢索，企業(yè)內(nèi)部的非結(jié)構(gòu)化數(shù)據(jù)往往也需要更專業(yè)的數(shù)據(jù)標(biāo)注處理。

為此，星環(huán)試圖通過(guò)提供包括語(yǔ)料處理、模型訓(xùn)練、知識(shí)庫(kù)建設(shè)在內(nèi)的工具鏈，提升企業(yè)的數(shù)據(jù)處理能力。“我們意識(shí)到不可能一個(gè)模型通曉各個(gè)領(lǐng)域，企業(yè)核心機(jī)密是不可能讓你知道的，我們定位為提供工具幫你做訓(xùn)練，你自己煉一個(gè)模型?！?/p>

挖掘企業(yè)內(nèi)部數(shù)據(jù)重要性的另外一個(gè)例證是摩根大通擁有150PB的專有數(shù)據(jù)集，而GPT-4僅在不到1PB的數(shù)據(jù)上訓(xùn)練。不過(guò)兩者的數(shù)據(jù)在質(zhì)量、類型和用途上存在顯著差異。大模型面臨的挑戰(zhàn)主要在于獲取高質(zhì)量、多樣化且合法可用的訓(xùn)練數(shù)據(jù)，而非簡(jiǎn)單的數(shù)據(jù)量不足。

對(duì)于“數(shù)據(jù)荒”，數(shù)據(jù)服務(wù)商景聯(lián)文科技創(chuàng)始人劉云濤也表達(dá)了類似觀點(diǎn)。“我們現(xiàn)在真實(shí)數(shù)據(jù)都來(lái)不及處理，數(shù)據(jù)不夠是杞人憂天了?！彼蚬栊侨吮硎?，“我預(yù)估洗完之后，中國(guó)的高質(zhì)量數(shù)據(jù)大概是有150TB，世界上還有很多個(gè)國(guó)家?！?/p>

他認(rèn)為目前存在的問(wèn)題主要在于高質(zhì)量的數(shù)據(jù)的問(wèn)題，涉及到數(shù)據(jù)清洗、數(shù)據(jù)工程。

劉云濤表示，大模型時(shí)代的核心變化首先是數(shù)據(jù)量變大了，“以前一個(gè)題庫(kù)10 萬(wàn)、20萬(wàn)道已經(jīng)很大的項(xiàng)目?，F(xiàn)在以億為單位，技術(shù)處理能力就變得非常重要了，因?yàn)槟悴豢赡芸咳斯ぁ！?/p>

第二個(gè)變化在標(biāo)準(zhǔn)環(huán)節(jié)，需要引入專業(yè)領(lǐng)域的人工標(biāo)注，“原來(lái)人工標(biāo)注和自動(dòng)化標(biāo)注是一個(gè)平行的關(guān)系，那現(xiàn)在更像是技術(shù)標(biāo)注放在前一輪，后一輪是專家級(jí)的標(biāo)注?！?/p>

專家級(jí)標(biāo)注指的是一種更高級(jí)別、更精細(xì)的人工標(biāo)注過(guò)程，這種標(biāo)注工作通常需要專業(yè)知識(shí)，能夠?qū)ψ詣?dòng)化標(biāo)注的結(jié)果進(jìn)行校正和優(yōu)化，以確保數(shù)據(jù)集的高質(zhì)量。與此前的用低成本勞動(dòng)力完成的簡(jiǎn)單數(shù)據(jù)標(biāo)注工作也有所不同。據(jù)稱，OpenAI內(nèi)部就有一個(gè)幾十名博士級(jí)別的專業(yè)人士組成的團(tuán)隊(duì)來(lái)做標(biāo)注。

大模型廠商在處理數(shù)據(jù)時(shí)遵循的流程通常包括幾個(gè)環(huán)節(jié)：首先，數(shù)據(jù)從各渠道獲取被獲取后，進(jìn)入數(shù)據(jù)工程部門。數(shù)據(jù)工程師會(huì)對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理。接著，處理好的數(shù)據(jù)會(huì)被交給算法部門，算法部門會(huì)利用多種方法進(jìn)一步處理，包括調(diào)參、通過(guò)監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)（SFT），以及使用人類反饋來(lái)強(qiáng)化學(xué)習(xí)模型（RLHF），經(jīng)過(guò)這些步驟處理后的數(shù)據(jù)，最終會(huì)被應(yīng)用到具體的任務(wù)或產(chǎn)品中。

在這一過(guò)程中，大模型廠商的核心的需求是從分布在各處的數(shù)據(jù)中提煉出可以用于微調(diào)、訓(xùn)練或持續(xù)優(yōu)化模型的高質(zhì)量數(shù)據(jù)。

Scale.AI專注于為企業(yè)客戶提供訓(xùn)練數(shù)據(jù)的數(shù)據(jù)標(biāo)注開(kāi)發(fā)。該平臺(tái)采用自動(dòng)化標(biāo)注、半自動(dòng)化標(biāo)注和人工審核等先進(jìn)技術(shù)，提高標(biāo)注的速度和準(zhǔn)確性，并提供數(shù)據(jù)管理和質(zhì)量控制工具。

在劉云濤看來(lái)，Scale.AI的核心不在于有很多數(shù)據(jù)，而是擁有快速處理數(shù)據(jù)的能力。“Scale AI建立了一整套數(shù)據(jù)清洗的流程，另外還建立了一套數(shù)據(jù)引擎，能形成真正的數(shù)據(jù)飛輪，這是個(gè)流程性的技術(shù)的問(wèn)題。”

二、開(kāi)源數(shù)據(jù)的困境

大語(yǔ)言模型之所以能夠展現(xiàn)出驚人的理解和生成能力，是因?yàn)閺暮Ａ康念A(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了豐富的世界知識(shí)。而開(kāi)源數(shù)據(jù)，如網(wǎng)頁(yè)、書籍、新聞、論文等，正是這些預(yù)訓(xùn)練語(yǔ)料的重要來(lái)源。通過(guò)開(kāi)放共享，開(kāi)源數(shù)據(jù)為模型提供了廣泛而多樣的知識(shí)來(lái)源，使其能夠?qū)W習(xí)到人類社會(huì)的方方面面?？梢哉f(shuō)，沒(méi)有開(kāi)源數(shù)據(jù)的支撐，大語(yǔ)言模型就難以獲得足夠的“知識(shí)養(yǎng)料”來(lái)實(shí)現(xiàn)快速發(fā)展。

由社區(qū)和非營(yíng)利組織推動(dòng)的開(kāi)源數(shù)據(jù)項(xiàng)目，為語(yǔ)言模型的訓(xùn)練提供了豐富多樣的語(yǔ)料，對(duì)推動(dòng)了自然語(yǔ)言處理技術(shù)的發(fā)展至關(guān)重要。智源研究院林詠華告訴硅星人“如果沒(méi)有Common Crawl，整個(gè)大模型的發(fā)展都會(huì)延后?！?/p>

她也指出了一個(gè)相關(guān)的問(wèn)題，國(guó)外志愿者參與的開(kāi)源數(shù)據(jù)集的建設(shè)，如BookCorpus、古騰堡工程都積累數(shù)年時(shí)間，而在國(guó)內(nèi)很少有人做類似的事情，這就造成了中文數(shù)據(jù)的數(shù)據(jù)孤島問(wèn)題。

人工智能開(kāi)源開(kāi)放數(shù)據(jù)平臺(tái)OpenDataLab相關(guān)負(fù)責(zé)人告訴硅星人，數(shù)據(jù)資源持有方普遍存在的一個(gè)顧慮是無(wú)法明確數(shù)據(jù)開(kāi)源行為對(duì)自身的價(jià)值，單純的數(shù)據(jù)開(kāi)源對(duì)于中小型企業(yè)很難形成短期的回報(bào)。“從投資與回報(bào)角度看，企業(yè)如果開(kāi)源模型，其帶來(lái)的技術(shù)的迭代和創(chuàng)新，對(duì)企業(yè)來(lái)講無(wú)疑是一種回報(bào)，而開(kāi)源數(shù)據(jù)則幾乎是純‘利他’的行為，很難有實(shí)際的收益?！?/p>

因此，相較于國(guó)外由非營(yíng)利機(jī)構(gòu)推動(dòng)，國(guó)內(nèi)各類事業(yè)單位在推動(dòng)數(shù)據(jù)開(kāi)源的過(guò)程中扮演了十分重要的角色。不過(guò)，隨著用戶規(guī)模和數(shù)據(jù)需求的增長(zhǎng)，也為各類數(shù)據(jù)開(kāi)源社區(qū)的資金與存儲(chǔ)等帶來(lái)了現(xiàn)實(shí)挑戰(zhàn)。

OpenDataLab從公開(kāi)數(shù)據(jù)收錄、開(kāi)源平臺(tái)建設(shè)、數(shù)據(jù)工具研發(fā)、高質(zhì)量原創(chuàng)數(shù)據(jù)集發(fā)布、生態(tài)合作等多方面入手，正在著手推動(dòng)解決研究和開(kāi)發(fā)中數(shù)據(jù)需求。

OpenDataLab表示，中文大規(guī)模數(shù)據(jù)集在開(kāi)源程度、規(guī)模以及質(zhì)量方面與英文數(shù)據(jù)集相比存在差距，這在一定程度上制約了中文自然語(yǔ)言處理技術(shù)的發(fā)展。目前OpenDataLab已經(jīng)聯(lián)合多家機(jī)構(gòu)，發(fā)布了一系列原創(chuàng)高質(zhì)量的大規(guī)模AI數(shù)據(jù)集，他們也希望能與更多機(jī)構(gòu)一道，通過(guò)合作來(lái)邀請(qǐng)更多人參與到數(shù)據(jù)開(kāi)源事業(yè)中來(lái)。

在公共數(shù)據(jù)開(kāi)放和社會(huì)力量方面，中國(guó)與美國(guó)存在一些差異，美國(guó)政府在公共數(shù)據(jù)開(kāi)放中扮演著重要角色，致力于“應(yīng)開(kāi)盡開(kāi)”。政府建立專門的AI訓(xùn)練數(shù)據(jù)開(kāi)放平臺(tái)，對(duì)數(shù)據(jù)進(jìn)行標(biāo)識(shí)、清洗、標(biāo)注等處理，并提供便捷的檢索和接口服務(wù)。社會(huì)力量則整合政府開(kāi)放數(shù)據(jù)與網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)，以開(kāi)源為主形成高質(zhì)量訓(xùn)練語(yǔ)料，并在行業(yè)大模型中貢獻(xiàn)專業(yè)性。

中國(guó)的公共數(shù)據(jù)共享和利用程度上仍有不足。部分領(lǐng)域如天氣、司法的數(shù)據(jù)開(kāi)放不如美國(guó)充分，在開(kāi)發(fā)利用中也缺乏API支持。社會(huì)力量主要結(jié)合海外開(kāi)源數(shù)據(jù)和國(guó)內(nèi)網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)形成訓(xùn)練集在行業(yè)大模型中，社會(huì)力量雖有貢獻(xiàn)，但受限于專業(yè)門檻高、企業(yè)共享意愿低、公共數(shù)據(jù)開(kāi)放不足等困難。

三、數(shù)據(jù)采集中的“灰度”

生成式人工智能的發(fā)展主要依賴大模型以及對(duì)大模型的數(shù)據(jù)訓(xùn)練，數(shù)據(jù)訓(xùn)練又離不開(kāi)大規(guī)模的數(shù)據(jù)爬取。數(shù)據(jù)采集是產(chǎn)業(yè)鏈的起點(diǎn)，涉及從互聯(lián)網(wǎng)、社交媒體、公共數(shù)據(jù)庫(kù)等多個(gè)渠道收集原始數(shù)據(jù)。這一環(huán)節(jié)需要遵守?cái)?shù)據(jù)隱私和版權(quán)法規(guī)，確保數(shù)據(jù)來(lái)源的合法性。隨著技術(shù)的發(fā)展，自動(dòng)化工具如網(wǎng)絡(luò)爬蟲被廣泛使用，但同時(shí)也帶來(lái)了數(shù)據(jù)隱私和安全等問(wèn)題。

五號(hào)雷達(dá)相關(guān)負(fù)責(zé)人童君告訴硅星人，數(shù)據(jù)爬取方面，Robots協(xié)議在網(wǎng)絡(luò)數(shù)據(jù)獲取是一種行業(yè)內(nèi)的約定俗成。不過(guò)Robots協(xié)議遵循基于爬蟲的自覺(jué)性，并不能從根本上阻止數(shù)據(jù)的獲取。“這個(gè)行業(yè)水下的產(chǎn)業(yè)占80%，比如場(chǎng)外項(xiàng)目制的數(shù)據(jù)購(gòu)買，數(shù)據(jù)進(jìn)行二次加工之后，源頭的數(shù)據(jù)是來(lái)自于哪里？這個(gè)東西沒(méi)辦法追溯。”

景聯(lián)文創(chuàng)始人劉云濤則建議從“灰度”的角度來(lái)看待這個(gè)問(wèn)題，“一個(gè)全新的行業(yè)，無(wú)論從國(guó)家到企業(yè)、個(gè)人都在探索，一定是有灰度的”。他認(rèn)為，在大數(shù)據(jù)和人工智能的新興行業(yè)中，存在著一些灰色地帶，主張應(yīng)該用技術(shù)手段將灰色地帶變成白色，合法合規(guī)。

景聯(lián)文用技術(shù)手段如SFT或人工標(biāo)注，將獲取的數(shù)據(jù)轉(zhuǎn)化為可交付使用的數(shù)據(jù)，建立高質(zhì)量大模型訓(xùn)練數(shù)據(jù)集。他打了個(gè)比方，就像“別人在野地里采摘的白菜，經(jīng)過(guò)他們的加工，變成了預(yù)制菜。”

隨著數(shù)據(jù)被定義為新的生產(chǎn)要素，全國(guó)各地紛紛成立了大量的數(shù)據(jù)交易所和交易中心。成為解決行業(yè)內(nèi)的灰色地帶問(wèn)題，提高市場(chǎng)參與者的安全感的一種新的機(jī)制。

截至目前，國(guó)內(nèi)已成立了超過(guò)40家數(shù)據(jù)交易所，包括上海數(shù)交所、貴陽(yáng)大數(shù)據(jù)交易所和北京國(guó)際大數(shù)據(jù)交易所等。這些交易所通過(guò)搭建數(shù)據(jù)要素流通平臺(tái)，提供數(shù)據(jù)供需對(duì)接撮合機(jī)制，以釋放數(shù)據(jù)要素的價(jià)值。

劉云濤認(rèn)為，數(shù)據(jù)交易所是一個(gè)顯著中國(guó)特色的新興市場(chǎng)，但建立一個(gè)有效的數(shù)據(jù)交易體系還需要大量的工作來(lái)完善。“能不能真正解決數(shù)商和購(gòu)買方之間的問(wèn)題？如果交易所只是讓我們付出，不能給我們帶來(lái)收益，那就沒(méi)有意義，這個(gè)事是需要時(shí)間的?！?/p>

五號(hào)雷達(dá)童君也表示，“大模型廠商基本上不會(huì)去交易所買數(shù)據(jù)。不是說(shuō)今天我來(lái)做大模型，然后買一堆數(shù)據(jù)回來(lái)。”

據(jù)介紹，數(shù)據(jù)交易市場(chǎng)目前存在多種模式。有的大公司建立了平臺(tái)，提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)集，主要以API形式供企業(yè)購(gòu)買服務(wù)。此外，還存在針對(duì)特定項(xiàng)目的定制化數(shù)據(jù)購(gòu)買模式。在這種情況下，買方了解數(shù)據(jù)的來(lái)源(如氣象局)。并直接與擁有數(shù)據(jù)的機(jī)構(gòu)或企業(yè)進(jìn)行交易。

四、“是時(shí)候把數(shù)據(jù)Scale Down了”

LLaMA3通過(guò)將訓(xùn)練數(shù)據(jù)從2T增加到15T，即使模型架構(gòu)保持不變，模型性能得到了顯著提升，然而，這種“暴力擴(kuò)展”的方法雖然有效，但也面臨著邊際效應(yīng)遞減和資源消耗增加的問(wèn)題。

語(yǔ)料規(guī)模并非越大越好，而是高信息密度的語(yǔ)料規(guī)模越大越好：Common Crawl是400TB的數(shù)據(jù)集，包含了互聯(lián)網(wǎng)上數(shù)十億網(wǎng)頁(yè)，內(nèi)容非常廣泛但未經(jīng)清洗。而C4則是對(duì)CC進(jìn)行了過(guò)濾噪聲、重復(fù)內(nèi)容等清洗后的305GB數(shù)據(jù)集。經(jīng)評(píng)估發(fā)現(xiàn)基于C4訓(xùn)練的模型性能優(yōu)于CC，這既說(shuō)明了數(shù)據(jù)清洗的重要性，也說(shuō)明了語(yǔ)料規(guī)模不能一味追求大。

近期，DCLM項(xiàng)目組，從Common Crawl中成功提取并清洗出240T的數(shù)據(jù)，也為數(shù)據(jù)規(guī)模增加的可行性提供了新的證據(jù)。這一進(jìn)展為數(shù)據(jù)的“Scale Up”策略提供了支持，但同時(shí)也提醒人們注意到數(shù)據(jù)處理和清洗背后的計(jì)算成本。

清華博士秦禹嘉表示，前scaling law時(shí)代我們強(qiáng)調(diào)的是scale up，即努力追求數(shù)據(jù)壓縮后的模型智能上限，后scaling law時(shí)代大家比拼的是scale down，即誰(shuí)能訓(xùn)練出“性價(jià)比”更高的模型。

例如，PbP團(tuán)隊(duì)利用較小模型的性能評(píng)價(jià)來(lái)過(guò)濾數(shù)據(jù)，從而提升大型模型的訓(xùn)練效果和收斂速度。類似地，DeepSeek通過(guò)使用fastText來(lái)清洗高質(zhì)量數(shù)據(jù)，為特定場(chǎng)景下的模型訓(xùn)練提供了優(yōu)質(zhì)數(shù)據(jù)。

這些研究成果暗示，通過(guò)徹底優(yōu)化數(shù)據(jù)的質(zhì)量，小型模型的訓(xùn)練效果可以接近或等同于使用大規(guī)?！芭K數(shù)據(jù)”訓(xùn)練的大型模型。這不僅示范了數(shù)據(jù)清洗在提升模型效率中的重要性，也說(shuō)明在某些情況下，模型的參數(shù)規(guī)模并非越大越好，關(guān)鍵在于如何有效地利用每一份數(shù)據(jù)。

隨著AI領(lǐng)域的不斷發(fā)展，這種對(duì)“效率”和“質(zhì)量”的追求正在成為研究和實(shí)踐中的新趨勢(shì)。未來(lái)，數(shù)據(jù)處理的方法，包括數(shù)據(jù)去噪、改寫預(yù)訓(xùn)練數(shù)據(jù)等策略，將成為推動(dòng)大模型發(fā)展的關(guān)鍵因素。同時(shí)，這也意味著數(shù)據(jù)質(zhì)量可能成為衡量AI模型性能的新標(biāo)準(zhǔn)，而不僅僅是數(shù)據(jù)規(guī)模。

在當(dāng)今快速發(fā)展的人工智能領(lǐng)域，數(shù)據(jù)成為了推動(dòng)技術(shù)前進(jìn)的基石，它的角色越來(lái)越像《沙丘》中珍貴的香料——無(wú)處不在，價(jià)值巨大。隨著對(duì)數(shù)據(jù)需求的增長(zhǎng)，如何有效地收集、處理和利用這些“數(shù)字香料”成為了關(guān)鍵問(wèn)題。從提高數(shù)據(jù)質(zhì)量到拓寬數(shù)據(jù)獲取渠道，未來(lái)的AI發(fā)展不僅取決于我們?nèi)绾螒?yīng)對(duì)這些挑戰(zhàn)，更在于我們?nèi)绾卧跀?shù)據(jù)的海洋中探尋新的可能。正如《沙丘》展示的那樣，真正的力量來(lái)自于對(duì)這些資源的理解和利用——誰(shuí)解決好了數(shù)據(jù)問(wèn)題，誰(shuí)就擁有了未來(lái)的鑰匙。

《沙丘》中的領(lǐng)航員通過(guò)食用香料獲得了預(yù)測(cè)未來(lái)的能力，人工智能算法通過(guò)處理大量數(shù)據(jù)集，發(fā)現(xiàn)模式和趨勢(shì)。在《沙丘》宇宙中，人類在香料混合物的影響下進(jìn)化，獲得新的能力并經(jīng)歷意識(shí)的重大飛躍。同樣，人工智能乃至AGI的發(fā)展也可能會(huì)為人類帶來(lái)類似的深遠(yuǎn)影響。

只不過(guò)如果知道十年前在社交媒體上發(fā)布的內(nèi)容，有朝一日會(huì)成為推動(dòng)技術(shù)進(jìn)步的“香料”，或許我們會(huì)更加慎重地對(duì)待自己的數(shù)字足跡。

作者｜周一笑郵箱｜zhouyixiao@pingwest.com

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】，微信公眾號(hào)：【硅星人Pro】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App