大模型行業(yè),根本沒有什么“真”開源?
從李彥宏的“智商稅”論調(diào)到傅盛的反駁,再到Sam Altman將這一議題上升到國家和意識形態(tài)層面,開源大模型似乎成了一個復(fù)雜的話題,涉及技術(shù)發(fā)展的方向、模式以及利益相關(guān)者的不同立場。
最近一段時間開源大模型市場非常熱鬧,先是蘋果開源了70億參數(shù)小模型DCLM,然后是重量級的Meta的Llama 3.1 和Mistral Large 2相繼開源,在多項基準(zhǔn)測試中Llama 3.1超過了閉源SOTA模型。
不過開源派和閉源派之間的爭論并沒有停下來的跡象。
一邊是Meta在Llama 3.1發(fā)布后表示:“現(xiàn)在,我們正在迎來一個開源引領(lǐng)的新時代?!绷硪贿吺荢am Altman在《華盛頓郵報》撰文,直接把開源閉源的矛盾上升到國家和意識形態(tài)層面。
在前段時間的世界人工智能大會上,李彥宏直言“開源其實(shí)是一種智商稅”,因為閉源模型明明性能強(qiáng),推理成本更低,再次引發(fā)討論。
隨后,傅盛也發(fā)表了他的看法,他認(rèn)為開源和閉源這兩個陣營是彼此共同競爭,共同發(fā)展。并對“開源其實(shí)是一種智商稅”這一觀點(diǎn)進(jìn)行了反駁:“開源大語言模型是免費(fèi)的,他怎么來的智商稅呢,誰在收稅?”,“如果今天企業(yè)用付費(fèi)閉源大語言模型,那才叫’智商稅’,尤其是收很高的模型授權(quán)費(fèi)、API費(fèi)用,一年花了數(shù)百上千萬,最后買回去當(dāng)個擺設(shè),甚至員工根本用不起來(模型)。”
這場爭論的核心涉及到技術(shù)發(fā)展的方向和模式,反映了不同利益相關(guān)者的觀點(diǎn)和立場,在我們談?wù)摯笳Z言模型的開源和閉源之前,需要厘清先“開源”和“閉源”這兩個基本概念。
“開源”一詞源自軟件領(lǐng)域,指在軟件開發(fā)過程中公開其源代碼,允許任何人查看、修改和分發(fā)。開源軟件的開發(fā)通常遵循互惠合作和同儕生產(chǎn)的原則,促進(jìn)了生產(chǎn)模塊、通信管道和交互社區(qū)的改進(jìn),典型代表包括Linux,Mozilla Firefox。
閉源軟件(專有軟件)由于商業(yè)或其他原因,不公開源代碼,只提供計算機(jī)可讀的程序(如二進(jìn)制格式)。源代碼僅由開發(fā)者掌握和控制。典型代表包括Windows,安卓。
開源是一種軟件開發(fā)模式,基于開放、共享和協(xié)作,鼓勵大家共同參與軟件的開發(fā)和改進(jìn),推動技術(shù)的不斷進(jìn)步和廣泛應(yīng)用。
選擇閉源開發(fā)的軟件更有可能成為一個穩(wěn)定、專注的產(chǎn)品,但是閉源軟件通常需要花錢,且如果它有任何錯誤或缺少功能,只能等待開放商來解決問題。
至于什么是開源大模型,業(yè)界并沒有像開源軟件一樣達(dá)成一個明確的共識。
大語言模型的開源和軟件開源在理念上是相似的,都是基于開放、共享和協(xié)作,鼓勵社區(qū)共同參與開發(fā)和改進(jìn),推動技術(shù)進(jìn)步并提高透明性。
然而,在實(shí)現(xiàn)和需求上有顯著區(qū)別。
軟件開源主要針對應(yīng)用程序和工具,開源的資源需求較低,而大語言模型的開源則涉及大量計算資源和高質(zhì)量的數(shù)據(jù),并且可能有更多使用限制。因此,雖然兩者的開源都旨在促進(jìn)創(chuàng)新和技術(shù)傳播,但大語言模型開源面臨更多的復(fù)雜性,社區(qū)貢獻(xiàn)形式也有所不同。
李彥宏也強(qiáng)調(diào)了兩者的區(qū)別,模型開源不等于代碼開源:“模型開源只能拿到一堆參數(shù),還要再做SFT(監(jiān)督微調(diào))、安全對齊,即使是拿到對應(yīng)源代碼,也不知道是用了多少比例、什么比例的數(shù)據(jù)去訓(xùn)練這些參數(shù),無法做到眾人拾柴火焰高,拿到這些東西,并不能讓你站在巨人的肩膀上迭代開發(fā)?!?/p>
大語言模型的全流程開源包括將模型開發(fā)的整個過程,從數(shù)據(jù)收集、模型設(shè)計、訓(xùn)練到部署,所有環(huán)節(jié)都公開透明。這種做法不僅包括數(shù)據(jù)集的公開和模型架構(gòu)的開放,還涵蓋了訓(xùn)練過程的代碼共享和預(yù)訓(xùn)練模型權(quán)重的發(fā)布。
過去一年,大語言模型的數(shù)量大幅增加,許多都聲稱是開源的,但它們真的有多開放呢?
荷蘭拉德堡德大學(xué)的人工智能研究學(xué)者Andreas Liesenfeld和計算語言學(xué)家Mark Dingemanse也發(fā)現(xiàn),雖然“開源”一詞被廣泛使用,但許多模型最多只是“開放權(quán)重”,關(guān)于系統(tǒng)構(gòu)建的其他大多數(shù)方面都隱藏了起來。
比如Meta和微軟等科技雖將其大語言模型標(biāo)榜為“開源”,卻并未公開底層技術(shù)相關(guān)的重要信息。而讓他們意外的是,資源更少的AI企業(yè)和機(jī)構(gòu)的表現(xiàn)更令人稱贊。
該研究團(tuán)隊分析了一系列熱門“開源”大語言模型項目,從代碼、數(shù)據(jù)、權(quán)重、API到文檔等多個方面評估其實(shí)際開放程度。研究還將OpenAI的ChatGPT作為閉源的參考點(diǎn),凸顯了“開源”項目的真實(shí)狀況。
?為開放,~為部分開放,X為封閉
結(jié)果顯示,項目間差異顯著,根據(jù)這個排行榜,Allen Institute for AI的OLMo是最開放的開源模型,其次是BigScience的BloomZ,兩者都是由非營利組織開發(fā)。
論文稱,Meta的Llama以及 Google DeepMind的Gemma 雖然自稱開源或開放,但實(shí)際上只是開放權(quán)重,外部研究人員可以訪問和使用預(yù)訓(xùn)練模型,但無法檢查或定制模型,也不知道模型如何針對特定任務(wù)進(jìn)行微調(diào)。
最近LLaMA 3和Mistral Large 2的發(fā)布引起了廣泛關(guān)注。在模型在開放性方面,LLaMA 3公開了模型權(quán)重,用戶可以訪問和使用這些預(yù)訓(xùn)練和指令微調(diào)后的模型權(quán)重,此外Meta還提供了一些基礎(chǔ)代碼,用于模型的預(yù)訓(xùn)練和指令微調(diào),但并未提供完整的訓(xùn)練代碼,LLaMA 3 的訓(xùn)練數(shù)據(jù)也并未公開。不過這次LMeta帶來了關(guān)于LLaMA 3.1 405B 的一份93頁的技術(shù)報告。
Mistral Large 2的情況類似,在模型權(quán)重和 API 方面保持了較高的開放度,但在完整代碼和訓(xùn)練數(shù)據(jù)方面的開放程度較低,采用了一種平衡商業(yè)利益和開放性的策略,允許研究使用但對商業(yè)使用有所限制。
谷歌表示,該公司在描述模型時“在語言上非常精確”,他們將Gemma稱為開放而非開源?!艾F(xiàn)有的開源概念并不總能直接應(yīng)用于 AI 系統(tǒng),”
這項研究的一個重要背景是歐盟的人工智能法案,該法案生效時,對歸類為開放的模型實(shí)施較寬松的監(jiān)管,因此關(guān)于開源的定義可能會變得更加重要。
研究人員表示,創(chuàng)新的唯一途徑是通過調(diào)整模型,為此需要足夠的信息來構(gòu)建自己的版本。不僅如此,模型還必須接受審查,例如,一個模型在大量測試樣本上進(jìn)行了訓(xùn)練,那么它通過特定測試可能并不算一項成就。
他們也對如此多的開源替代方案的出現(xiàn)感到令人欣喜,ChatGPT非常受歡迎,以至于很容易讓人們忘記對其訓(xùn)練數(shù)據(jù)或其他幕后手段一無所知。對于那些希望更好地了解模型或基于構(gòu)建應(yīng)用的人來說,這是一個隱患,而開源替代方案使得關(guān)鍵的基礎(chǔ)研究成為可能。
硅星人也對國內(nèi)部分開源大語言模型的開源情況進(jìn)行了統(tǒng)計:
從表中我們可以看到,和海外的情況類似,開源較為徹底的模型基本是由研究機(jī)構(gòu)主導(dǎo),這主要是因為研究機(jī)構(gòu)的目標(biāo)是推動科研進(jìn)步和行業(yè)發(fā)展,更傾向于開放其研究成果。
而商業(yè)公司則利用其資源優(yōu)勢,開發(fā)出更為強(qiáng)大的模型,并通過適當(dāng)?shù)拈_源策略在競爭中獲得優(yōu)勢。
從GPT-3到BERT以來,開源為大模型生態(tài)系統(tǒng)帶來了重要的推動力。
通過公開其架構(gòu)和訓(xùn)練方法,研究人員和開發(fā)者可以在這些基礎(chǔ)上進(jìn)行進(jìn)一步的探索和改進(jìn),催生出更多前沿的技術(shù)和應(yīng)用。
開源大模型的出現(xiàn)顯著降低了開發(fā)的門檻,開發(fā)者和中小企業(yè)能夠利用這些先進(jìn)的AI技術(shù),而不必從零開始構(gòu)建模型,從而節(jié)省了大量的時間和資源。這使得更多創(chuàng)新項目和產(chǎn)品得以快速落地,推動了整個行業(yè)的發(fā)展。開發(fā)者們在開源平臺上積極分享優(yōu)化方法和應(yīng)用案例,也促進(jìn)了技術(shù)成熟和應(yīng)用。
對教育和科研而言,開源大語言模型提供了寶貴資源。學(xué)生和新手開發(fā)者通過研究和使用這些模型,能快速掌握先進(jìn)AI技術(shù),縮短學(xué)習(xí)曲線,為行業(yè)輸送新鮮血液。
然而,大語言模型的開放性并非簡單的二元特性?;赥ransformer的系統(tǒng)架構(gòu)及其訓(xùn)練過程極為復(fù)雜,難以簡單歸類為開放或封閉。開源大模型并非一個簡單的標(biāo)簽,更像一個光譜,從完全開源到部分開源,程度各異。
大語言模型的開源是一項復(fù)雜而細(xì)致的工作,并非所有模型都必須開源。
更不應(yīng)以“道德綁架”的方式要求全面開源,因為這涉及大量技術(shù)、資源和安全考量,需要平衡開放與安全、創(chuàng)新與責(zé)任。正如科技領(lǐng)域的其他方面一樣,多元化的貢獻(xiàn)方式才能構(gòu)建一個更豐富的技術(shù)生態(tài)系統(tǒng)。
開源和閉源模型的關(guān)系或許可以類比于軟件行業(yè)中開源和閉源軟件的共存。
開源模型促進(jìn)了技術(shù)的廣泛傳播和創(chuàng)新,為研究者和企業(yè)提供了更多可能性,而閉源模型則推動著整個行業(yè)的標(biāo)準(zhǔn)的提升。兩者的良性競爭激發(fā)了持續(xù)改進(jìn)的動力,也為用戶提供了多樣化的選擇。
正如開源和專有軟件共同塑造了今天的軟件生態(tài),開源和閉源大模型之間也并非二元對立,兩者的并存發(fā)展是推動AI技術(shù)不斷進(jìn)步、滿足不同應(yīng)用場景需求的重要動力。最終,用戶和市場會作出適合自己的選擇。
作者|周一笑
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
真正的開源精神應(yīng)該是一種開放、協(xié)作、共享的精神,但在當(dāng)前的行業(yè)環(huán)境下,這種精神似乎被商業(yè)利益所沖淡。企業(yè)更多地將開源作為一種營銷策略或品牌形象塑造的手段,而非真正推動技術(shù)進(jìn)步和創(chuàng)新的驅(qū)動力。