大模型真的在吞噬人類的一切數(shù)據(jù)嗎?
隨著大模型對(duì)數(shù)據(jù)的大量需求,人們開(kāi)始擔(dān)憂數(shù)據(jù)資源是否會(huì)被耗盡。本文將探討大模型是否真的在吞噬人類的一切數(shù)據(jù),以及這一現(xiàn)象對(duì)AI未來(lái)發(fā)展的潛在影響。
在弗蘭克·赫伯特的《沙丘》中,沙漠星球厄拉科斯的沙丘下隱藏著一種無(wú)價(jià)之寶:香料。
這種神秘物質(zhì)使太空旅行成為可能,能延長(zhǎng)壽命,并具有擴(kuò)展意識(shí)的效果,是宇宙中最寶貴的財(cái)富?!罢l(shuí)控制了香料,誰(shuí)就控制了宇宙”。正如香料在《沙丘》宇宙中占據(jù)著至關(guān)重要的地位一樣,在當(dāng)今的生成式人工智能時(shí)代,數(shù)據(jù)也承載著類似角色。
就像《沙丘》中對(duì)香料的爭(zhēng)奪,現(xiàn)實(shí)世界里各方勢(shì)力也在為數(shù)據(jù)資源展開(kāi)激烈角逐。海量的數(shù)據(jù)如同埋藏在數(shù)字世界沙丘下的“香料”,蘊(yùn)藏著難以估量的價(jià)值。而那些能夠高效采集、管理和利用數(shù)據(jù)的企業(yè),就像小說(shuō)中控制香料的勢(shì)力,在這場(chǎng)數(shù)據(jù)爭(zhēng)奪戰(zhàn)中占據(jù)著優(yōu)勢(shì)地位。
如同香料在《沙丘》宇宙中的供應(yīng)并不是無(wú)限的如果開(kāi)采過(guò)度或生態(tài)系統(tǒng)受到破壞,香料的產(chǎn)量可能會(huì)大幅減少甚至耗盡,數(shù)據(jù)也可能被耗盡。根據(jù)非營(yíng)利研究機(jī)構(gòu)Epoch AI的最新論文,大語(yǔ)言模型會(huì)在2028年耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)。
大模型真的在吞噬人類的一切數(shù)據(jù)嗎?我們是否正處在一個(gè)看似無(wú)盡的數(shù)字香料狂潮中,不斷地向這些饑渴的大模型提供養(yǎng)分?
預(yù)計(jì)在未來(lái)幾年內(nèi)可能會(huì)耗盡現(xiàn)有的公共文本數(shù)據(jù)存量
人類生成的數(shù)據(jù)量有限,一旦這些文本數(shù)據(jù)被耗盡,可能會(huì)成為約束語(yǔ)言模型繼續(xù)擴(kuò)展的主要瓶頸。相關(guān)論文認(rèn)為,語(yǔ)言模型將在2026年到2032年之間利用完這些數(shù)據(jù),但如果考慮到利潤(rùn)最大化,過(guò)度訓(xùn)練數(shù)據(jù)可能會(huì)導(dǎo)致數(shù)據(jù)在2025年就被用完。
月之暗面創(chuàng)始人楊植麟也在近期表達(dá)了類似觀點(diǎn),他認(rèn)為大模型通向AGI最大的挑戰(zhàn)是數(shù)據(jù)。楊植麟表示,“假設(shè)你想最后做一個(gè)比人類更好的AI,但可能根本不存在這樣的數(shù)據(jù),因?yàn)楝F(xiàn)在所有的數(shù)據(jù)都是人產(chǎn)生的。所以最大的問(wèn)題是怎么解決這些比較稀缺、甚至一些不存在的數(shù)據(jù)?!?/p>
根據(jù)Epoch研究員Pablo Villalobos的觀點(diǎn),OpenAI在訓(xùn)練GPT-4時(shí)使用了大約1200萬(wàn)個(gè)token,GPT-5需要60到100萬(wàn)億個(gè)token才能跟上預(yù)期的增長(zhǎng)。關(guān)鍵在于即使用盡互聯(lián)網(wǎng)上所有可能的高質(zhì)量數(shù),仍然需要10萬(wàn)到20萬(wàn)億token,甚至更多。
面對(duì)如此龐大的數(shù)據(jù)需求,合成數(shù)據(jù)也是一個(gè)學(xué)術(shù)界和產(chǎn)業(yè)界都在嘗試的重要方向。合成數(shù)據(jù)基于現(xiàn)有數(shù)據(jù)進(jìn)行擴(kuò)充,這種能力對(duì)未來(lái)的訓(xùn)練數(shù)據(jù)規(guī)模至關(guān)重要。不過(guò),用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練也存在一些局限性,例如可能導(dǎo)致模型崩潰等問(wèn)題。
目前,大模型廠商主要從網(wǎng)絡(luò)上抓取科學(xué)論文、新聞文章、維基百科等公開(kāi)信息來(lái)訓(xùn)練模型。從長(zhǎng)遠(yuǎn)來(lái)看,僅依靠新聞文章和社交媒體等內(nèi)容可能無(wú)法維持人工智能的發(fā)展需求。這可能迫使企業(yè)開(kāi)始利用一些敏感的私有數(shù)據(jù),如電子郵件、聊天記錄等,或不得不依賴于聊天機(jī)器人自身生成的質(zhì)量不高的數(shù)據(jù)。
一、數(shù)據(jù)不夠用是“杞人憂天”?
沒(méi)有數(shù)據(jù)就無(wú)法訓(xùn)練大語(yǔ)言模型,但數(shù)據(jù)真的不夠用了嗎?對(duì)于這一問(wèn)題,也有人持有不一樣的觀點(diǎn)。
星環(huán)科技孫元浩認(rèn)為,這是一個(gè)“假新聞的判斷”。在他看來(lái),除了現(xiàn)有互聯(lián)網(wǎng)的存量數(shù)據(jù),各個(gè)企業(yè)內(nèi)部還有大量的數(shù)據(jù)沒(méi)有被利用,“現(xiàn)在數(shù)據(jù)多到遠(yuǎn)遠(yuǎn)超過(guò)模型可以處理的量”。
“大模型結(jié)構(gòu)和訓(xùn)練方法都不是秘密了,而語(yǔ)料散落在各種地方,需要把現(xiàn)有語(yǔ)料整理起來(lái)訓(xùn)練或微調(diào)模型,工作量非常巨大,這是目前最大的挑戰(zhàn)。”孫元浩告訴硅星人。
其中的一個(gè)重要問(wèn)題,是數(shù)據(jù)處理范式從結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)變。結(jié)構(gòu)化數(shù)據(jù),例如數(shù)據(jù)庫(kù)中的表格數(shù)據(jù),有明確的字段和格式,易于存儲(chǔ)和查詢。而文本文檔、合同協(xié)議、教材等非結(jié)構(gòu)化數(shù)據(jù),雖然包含豐富的信息和知識(shí),但由于缺乏統(tǒng)一的格式,難以直接存儲(chǔ)和檢索,企業(yè)內(nèi)部的非結(jié)構(gòu)化數(shù)據(jù)往往也需要更專業(yè)的數(shù)據(jù)標(biāo)注處理。
為此,星環(huán)試圖通過(guò)提供包括語(yǔ)料處理、模型訓(xùn)練、知識(shí)庫(kù)建設(shè)在內(nèi)的工具鏈,提升企業(yè)的數(shù)據(jù)處理能力。“我們意識(shí)到不可能一個(gè)模型通曉各個(gè)領(lǐng)域,企業(yè)核心機(jī)密是不可能讓你知道的,我們定位為提供工具幫你做訓(xùn)練,你自己煉一個(gè)模型?!?/p>
挖掘企業(yè)內(nèi)部數(shù)據(jù)重要性的另外一個(gè)例證是摩根大通擁有150PB的專有數(shù)據(jù)集,而GPT-4僅在不到1PB的數(shù)據(jù)上訓(xùn)練。不過(guò)兩者的數(shù)據(jù)在質(zhì)量、類型和用途上存在顯著差異。大模型面臨的挑戰(zhàn)主要在于獲取高質(zhì)量、多樣化且合法可用的訓(xùn)練數(shù)據(jù),而非簡(jiǎn)單的數(shù)據(jù)量不足。
對(duì)于“數(shù)據(jù)荒”,數(shù)據(jù)服務(wù)商景聯(lián)文科技創(chuàng)始人劉云濤也表達(dá)了類似觀點(diǎn)。“我們現(xiàn)在真實(shí)數(shù)據(jù)都來(lái)不及處理,數(shù)據(jù)不夠是杞人憂天了?!彼蚬栊侨吮硎?,“我預(yù)估洗完之后,中國(guó)的高質(zhì)量數(shù)據(jù)大概是有150TB,世界上還有很多個(gè)國(guó)家?!?/p>
他認(rèn)為目前存在的問(wèn)題主要在于高質(zhì)量的數(shù)據(jù)的問(wèn)題,涉及到數(shù)據(jù)清洗、數(shù)據(jù)工程。
劉云濤表示,大模型時(shí)代的核心變化首先是數(shù)據(jù)量變大了,“以前一個(gè)題庫(kù)10 萬(wàn)、20萬(wàn)道已經(jīng)很大的項(xiàng)目?,F(xiàn)在以億為單位,技術(shù)處理能力就變得非常重要了,因?yàn)槟悴豢赡芸咳斯ぁ!?/p>
第二個(gè)變化在標(biāo)準(zhǔn)環(huán)節(jié),需要引入專業(yè)領(lǐng)域的人工標(biāo)注,“原來(lái)人工標(biāo)注和自動(dòng)化標(biāo)注是一個(gè)平行的關(guān)系,那現(xiàn)在更像是技術(shù)標(biāo)注放在前一輪,后一輪是專家級(jí)的標(biāo)注?!?/p>
專家級(jí)標(biāo)注指的是一種更高級(jí)別、更精細(xì)的人工標(biāo)注過(guò)程,這種標(biāo)注工作通常需要專業(yè)知識(shí),能夠?qū)ψ詣?dòng)化標(biāo)注的結(jié)果進(jìn)行校正和優(yōu)化,以確保數(shù)據(jù)集的高質(zhì)量。與此前的用低成本勞動(dòng)力完成的簡(jiǎn)單數(shù)據(jù)標(biāo)注工作也有所不同。據(jù)稱,OpenAI內(nèi)部就有一個(gè)幾十名博士級(jí)別的專業(yè)人士組成的團(tuán)隊(duì)來(lái)做標(biāo)注。
大模型廠商在處理數(shù)據(jù)時(shí)遵循的流程通常包括幾個(gè)環(huán)節(jié):首先,數(shù)據(jù)從各渠道獲取被獲取后,進(jìn)入數(shù)據(jù)工程部門。數(shù)據(jù)工程師會(huì)對(duì)數(shù)據(jù)進(jìn)行清洗和預(yù)處理。接著,處理好的數(shù)據(jù)會(huì)被交給算法部門,算法部門會(huì)利用多種方法進(jìn)一步處理,包括調(diào)參、通過(guò)監(jiān)督學(xué)習(xí)對(duì)模型進(jìn)行微調(diào)(SFT),以及使用人類反饋來(lái)強(qiáng)化學(xué)習(xí)模型(RLHF),經(jīng)過(guò)這些步驟處理后的數(shù)據(jù),最終會(huì)被應(yīng)用到具體的任務(wù)或產(chǎn)品中。
在這一過(guò)程中,大模型廠商的核心的需求是從分布在各處的數(shù)據(jù)中提煉出可以用于微調(diào)、訓(xùn)練或持續(xù)優(yōu)化模型的高質(zhì)量數(shù)據(jù)。
Scale.AI專注于為企業(yè)客戶提供訓(xùn)練數(shù)據(jù)的數(shù)據(jù)標(biāo)注開(kāi)發(fā)。該平臺(tái)采用自動(dòng)化標(biāo)注、半自動(dòng)化標(biāo)注和人工審核等先進(jìn)技術(shù),提高標(biāo)注的速度和準(zhǔn)確性,并提供數(shù)據(jù)管理和質(zhì)量控制工具。
在劉云濤看來(lái),Scale.AI的核心不在于有很多數(shù)據(jù),而是擁有快速處理數(shù)據(jù)的能力。“Scale AI建立了一整套數(shù)據(jù)清洗的流程,另外還建立了一套數(shù)據(jù)引擎,能形成真正的數(shù)據(jù)飛輪,這是個(gè)流程性的技術(shù)的問(wèn)題。”
二、開(kāi)源數(shù)據(jù)的困境
大語(yǔ)言模型之所以能夠展現(xiàn)出驚人的理解和生成能力,是因?yàn)閺暮A康念A(yù)訓(xùn)練數(shù)據(jù)中學(xué)習(xí)了豐富的世界知識(shí)。而開(kāi)源數(shù)據(jù),如網(wǎng)頁(yè)、書籍、新聞、論文等,正是這些預(yù)訓(xùn)練語(yǔ)料的重要來(lái)源。通過(guò)開(kāi)放共享,開(kāi)源數(shù)據(jù)為模型提供了廣泛而多樣的知識(shí)來(lái)源,使其能夠?qū)W習(xí)到人類社會(huì)的方方面面??梢哉f(shuō),沒(méi)有開(kāi)源數(shù)據(jù)的支撐,大語(yǔ)言模型就難以獲得足夠的“知識(shí)養(yǎng)料”來(lái)實(shí)現(xiàn)快速發(fā)展。
由社區(qū)和非營(yíng)利組織推動(dòng)的開(kāi)源數(shù)據(jù)項(xiàng)目,為語(yǔ)言模型的訓(xùn)練提供了豐富多樣的語(yǔ)料,對(duì)推動(dòng)了自然語(yǔ)言處理技術(shù)的發(fā)展至關(guān)重要。智源研究院林詠華告訴硅星人“如果沒(méi)有Common Crawl,整個(gè)大模型的發(fā)展都會(huì)延后?!?/p>
她也指出了一個(gè)相關(guān)的問(wèn)題,國(guó)外志愿者參與的開(kāi)源數(shù)據(jù)集的建設(shè),如BookCorpus、古騰堡工程都積累數(shù)年時(shí)間,而在國(guó)內(nèi)很少有人做類似的事情,這就造成了中文數(shù)據(jù)的數(shù)據(jù)孤島問(wèn)題。
人工智能開(kāi)源開(kāi)放數(shù)據(jù)平臺(tái)OpenDataLab相關(guān)負(fù)責(zé)人告訴硅星人,數(shù)據(jù)資源持有方普遍存在的一個(gè)顧慮是無(wú)法明確數(shù)據(jù)開(kāi)源行為對(duì)自身的價(jià)值,單純的數(shù)據(jù)開(kāi)源對(duì)于中小型企業(yè)很難形成短期的回報(bào)。“從投資與回報(bào)角度看,企業(yè)如果開(kāi)源模型,其帶來(lái)的技術(shù)的迭代和創(chuàng)新,對(duì)企業(yè)來(lái)講無(wú)疑是一種回報(bào),而開(kāi)源數(shù)據(jù)則幾乎是純‘利他’的行為,很難有實(shí)際的收益?!?/p>
因此,相較于國(guó)外由非營(yíng)利機(jī)構(gòu)推動(dòng),國(guó)內(nèi)各類事業(yè)單位在推動(dòng)數(shù)據(jù)開(kāi)源的過(guò)程中扮演了十分重要的角色。不過(guò),隨著用戶規(guī)模和數(shù)據(jù)需求的增長(zhǎng),也為各類數(shù)據(jù)開(kāi)源社區(qū)的資金與存儲(chǔ)等帶來(lái)了現(xiàn)實(shí)挑戰(zhàn)。
OpenDataLab從公開(kāi)數(shù)據(jù)收錄、開(kāi)源平臺(tái)建設(shè)、數(shù)據(jù)工具研發(fā)、高質(zhì)量原創(chuàng)數(shù)據(jù)集發(fā)布、生態(tài)合作等多方面入手,正在著手推動(dòng)解決研究和開(kāi)發(fā)中數(shù)據(jù)需求。
OpenDataLab表示,中文大規(guī)模數(shù)據(jù)集在開(kāi)源程度、規(guī)模以及質(zhì)量方面與英文數(shù)據(jù)集相比存在差距,這在一定程度上制約了中文自然語(yǔ)言處理技術(shù)的發(fā)展。目前OpenDataLab已經(jīng)聯(lián)合多家機(jī)構(gòu),發(fā)布了一系列原創(chuàng)高質(zhì)量的大規(guī)模AI數(shù)據(jù)集,他們也希望能與更多機(jī)構(gòu)一道,通過(guò)合作來(lái)邀請(qǐng)更多人參與到數(shù)據(jù)開(kāi)源事業(yè)中來(lái)。
在公共數(shù)據(jù)開(kāi)放和社會(huì)力量方面,中國(guó)與美國(guó)存在一些差異,美國(guó)政府在公共數(shù)據(jù)開(kāi)放中扮演著重要角色,致力于“應(yīng)開(kāi)盡開(kāi)”。政府建立專門的AI訓(xùn)練數(shù)據(jù)開(kāi)放平臺(tái),對(duì)數(shù)據(jù)進(jìn)行標(biāo)識(shí)、清洗、標(biāo)注等處理,并提供便捷的檢索和接口服務(wù)。社會(huì)力量則整合政府開(kāi)放數(shù)據(jù)與網(wǎng)絡(luò)公開(kāi)數(shù)據(jù),以開(kāi)源為主形成高質(zhì)量訓(xùn)練語(yǔ)料,并在行業(yè)大模型中貢獻(xiàn)專業(yè)性。
中國(guó)的公共數(shù)據(jù)共享和利用程度上仍有不足。部分領(lǐng)域如天氣、司法的數(shù)據(jù)開(kāi)放不如美國(guó)充分,在開(kāi)發(fā)利用中也缺乏API支持。社會(huì)力量主要結(jié)合海外開(kāi)源數(shù)據(jù)和國(guó)內(nèi)網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)形成訓(xùn)練集在行業(yè)大模型中,社會(huì)力量雖有貢獻(xiàn),但受限于專業(yè)門檻高、企業(yè)共享意愿低、公共數(shù)據(jù)開(kāi)放不足等困難。
三、數(shù)據(jù)采集中的“灰度”
生成式人工智能的發(fā)展主要依賴大模型以及對(duì)大模型的數(shù)據(jù)訓(xùn)練,數(shù)據(jù)訓(xùn)練又離不開(kāi)大規(guī)模的數(shù)據(jù)爬取。數(shù)據(jù)采集是產(chǎn)業(yè)鏈的起點(diǎn),涉及從互聯(lián)網(wǎng)、社交媒體、公共數(shù)據(jù)庫(kù)等多個(gè)渠道收集原始數(shù)據(jù)。這一環(huán)節(jié)需要遵守?cái)?shù)據(jù)隱私和版權(quán)法規(guī),確保數(shù)據(jù)來(lái)源的合法性。隨著技術(shù)的發(fā)展,自動(dòng)化工具如網(wǎng)絡(luò)爬蟲被廣泛使用,但同時(shí)也帶來(lái)了數(shù)據(jù)隱私和安全等問(wèn)題。
五號(hào)雷達(dá)相關(guān)負(fù)責(zé)人童君告訴硅星人,數(shù)據(jù)爬取方面,Robots協(xié)議在網(wǎng)絡(luò)數(shù)據(jù)獲取是一種行業(yè)內(nèi)的約定俗成。不過(guò)Robots協(xié)議遵循基于爬蟲的自覺(jué)性,并不能從根本上阻止數(shù)據(jù)的獲取。“這個(gè)行業(yè)水下的產(chǎn)業(yè)占80%,比如場(chǎng)外項(xiàng)目制的數(shù)據(jù)購(gòu)買,數(shù)據(jù)進(jìn)行二次加工之后,源頭的數(shù)據(jù)是來(lái)自于哪里?這個(gè)東西沒(méi)辦法追溯。”
景聯(lián)文創(chuàng)始人劉云濤則建議從“灰度”的角度來(lái)看待這個(gè)問(wèn)題,“一個(gè)全新的行業(yè),無(wú)論從國(guó)家到企業(yè)、個(gè)人都在探索,一定是有灰度的”。他認(rèn)為,在大數(shù)據(jù)和人工智能的新興行業(yè)中,存在著一些灰色地帶,主張應(yīng)該用技術(shù)手段將灰色地帶變成白色,合法合規(guī)。
景聯(lián)文用技術(shù)手段如SFT或人工標(biāo)注,將獲取的數(shù)據(jù)轉(zhuǎn)化為可交付使用的數(shù)據(jù),建立高質(zhì)量大模型訓(xùn)練數(shù)據(jù)集。他打了個(gè)比方,就像“別人在野地里采摘的白菜,經(jīng)過(guò)他們的加工,變成了預(yù)制菜。”
隨著數(shù)據(jù)被定義為新的生產(chǎn)要素,全國(guó)各地紛紛成立了大量的數(shù)據(jù)交易所和交易中心。成為解決行業(yè)內(nèi)的灰色地帶問(wèn)題,提高市場(chǎng)參與者的安全感的一種新的機(jī)制。
截至目前,國(guó)內(nèi)已成立了超過(guò)40家數(shù)據(jù)交易所,包括上海數(shù)交所、貴陽(yáng)大數(shù)據(jù)交易所和北京國(guó)際大數(shù)據(jù)交易所等。這些交易所通過(guò)搭建數(shù)據(jù)要素流通平臺(tái),提供數(shù)據(jù)供需對(duì)接撮合機(jī)制,以釋放數(shù)據(jù)要素的價(jià)值。
劉云濤認(rèn)為,數(shù)據(jù)交易所是一個(gè)顯著中國(guó)特色的新興市場(chǎng),但建立一個(gè)有效的數(shù)據(jù)交易體系還需要大量的工作來(lái)完善。“能不能真正解決數(shù)商和購(gòu)買方之間的問(wèn)題?如果交易所只是讓我們付出,不能給我們帶來(lái)收益,那就沒(méi)有意義,這個(gè)事是需要時(shí)間的?!?/p>
五號(hào)雷達(dá)童君也表示,“大模型廠商基本上不會(huì)去交易所買數(shù)據(jù)。不是說(shuō)今天我來(lái)做大模型,然后買一堆數(shù)據(jù)回來(lái)。”
據(jù)介紹,數(shù)據(jù)交易市場(chǎng)目前存在多種模式。有的大公司建立了平臺(tái),提供數(shù)據(jù)產(chǎn)品和數(shù)據(jù)集,主要以API形式供企業(yè)購(gòu)買服務(wù)。此外,還存在針對(duì)特定項(xiàng)目的定制化數(shù)據(jù)購(gòu)買模式。在這種情況下,買方了解數(shù)據(jù)的來(lái)源(如氣象局)。并直接與擁有數(shù)據(jù)的機(jī)構(gòu)或企業(yè)進(jìn)行交易。
四、“是時(shí)候把數(shù)據(jù)Scale Down了”
LLaMA3通過(guò)將訓(xùn)練數(shù)據(jù)從2T增加到15T,即使模型架構(gòu)保持不變,模型性能得到了顯著提升,然而,這種“暴力擴(kuò)展”的方法雖然有效,但也面臨著邊際效應(yīng)遞減和資源消耗增加的問(wèn)題。
語(yǔ)料規(guī)模并非越大越好,而是高信息密度的語(yǔ)料規(guī)模越大越好:Common Crawl是400TB的數(shù)據(jù)集,包含了互聯(lián)網(wǎng)上數(shù)十億網(wǎng)頁(yè),內(nèi)容非常廣泛但未經(jīng)清洗。而C4則是對(duì)CC進(jìn)行了過(guò)濾噪聲、重復(fù)內(nèi)容等清洗后的305GB數(shù)據(jù)集。經(jīng)評(píng)估發(fā)現(xiàn)基于C4訓(xùn)練的模型性能優(yōu)于CC,這既說(shuō)明了數(shù)據(jù)清洗的重要性,也說(shuō)明了語(yǔ)料規(guī)模不能一味追求大。
近期,DCLM項(xiàng)目組,從Common Crawl中成功提取并清洗出240T的數(shù)據(jù),也為數(shù)據(jù)規(guī)模增加的可行性提供了新的證據(jù)。這一進(jìn)展為數(shù)據(jù)的“Scale Up”策略提供了支持,但同時(shí)也提醒人們注意到數(shù)據(jù)處理和清洗背后的計(jì)算成本。
清華博士秦禹嘉表示,前scaling law時(shí)代我們強(qiáng)調(diào)的是scale up,即努力追求數(shù)據(jù)壓縮后的模型智能上限,后scaling law時(shí)代大家比拼的是scale down,即誰(shuí)能訓(xùn)練出“性價(jià)比”更高的模型。
例如,PbP團(tuán)隊(duì)利用較小模型的性能評(píng)價(jià)來(lái)過(guò)濾數(shù)據(jù),從而提升大型模型的訓(xùn)練效果和收斂速度。類似地,DeepSeek通過(guò)使用fastText來(lái)清洗高質(zhì)量數(shù)據(jù),為特定場(chǎng)景下的模型訓(xùn)練提供了優(yōu)質(zhì)數(shù)據(jù)。
這些研究成果暗示,通過(guò)徹底優(yōu)化數(shù)據(jù)的質(zhì)量,小型模型的訓(xùn)練效果可以接近或等同于使用大規(guī)?!芭K數(shù)據(jù)”訓(xùn)練的大型模型。這不僅示范了數(shù)據(jù)清洗在提升模型效率中的重要性,也說(shuō)明在某些情況下,模型的參數(shù)規(guī)模并非越大越好,關(guān)鍵在于如何有效地利用每一份數(shù)據(jù)。
隨著AI領(lǐng)域的不斷發(fā)展,這種對(duì)“效率”和“質(zhì)量”的追求正在成為研究和實(shí)踐中的新趨勢(shì)。未來(lái),數(shù)據(jù)處理的方法,包括數(shù)據(jù)去噪、改寫預(yù)訓(xùn)練數(shù)據(jù)等策略,將成為推動(dòng)大模型發(fā)展的關(guān)鍵因素。同時(shí),這也意味著數(shù)據(jù)質(zhì)量可能成為衡量AI模型性能的新標(biāo)準(zhǔn),而不僅僅是數(shù)據(jù)規(guī)模。
在當(dāng)今快速發(fā)展的人工智能領(lǐng)域,數(shù)據(jù)成為了推動(dòng)技術(shù)前進(jìn)的基石,它的角色越來(lái)越像《沙丘》中珍貴的香料——無(wú)處不在,價(jià)值巨大。隨著對(duì)數(shù)據(jù)需求的增長(zhǎng),如何有效地收集、處理和利用這些“數(shù)字香料”成為了關(guān)鍵問(wèn)題。從提高數(shù)據(jù)質(zhì)量到拓寬數(shù)據(jù)獲取渠道,未來(lái)的AI發(fā)展不僅取決于我們?nèi)绾螒?yīng)對(duì)這些挑戰(zhàn),更在于我們?nèi)绾卧跀?shù)據(jù)的海洋中探尋新的可能。正如《沙丘》展示的那樣,真正的力量來(lái)自于對(duì)這些資源的理解和利用——誰(shuí)解決好了數(shù)據(jù)問(wèn)題,誰(shuí)就擁有了未來(lái)的鑰匙。
《沙丘》中的領(lǐng)航員通過(guò)食用香料獲得了預(yù)測(cè)未來(lái)的能力,人工智能算法通過(guò)處理大量數(shù)據(jù)集,發(fā)現(xiàn)模式和趨勢(shì)。在《沙丘》宇宙中,人類在香料混合物的影響下進(jìn)化,獲得新的能力并經(jīng)歷意識(shí)的重大飛躍。同樣,人工智能乃至AGI的發(fā)展也可能會(huì)為人類帶來(lái)類似的深遠(yuǎn)影響。
只不過(guò)如果知道十年前在社交媒體上發(fā)布的內(nèi)容,有朝一日會(huì)成為推動(dòng)技術(shù)進(jìn)步的“香料”,或許我們會(huì)更加慎重地對(duì)待自己的數(shù)字足跡。
作者|周一笑 郵箱|zhouyixiao@pingwest.com
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!