反思國(guó)產(chǎn)大模型:如果泡沫不可避免,我們?cè)撊绾蚊鎸?duì)這場(chǎng)革命?

0 評(píng)論 2632 瀏覽 2 收藏 12 分鐘

國(guó)產(chǎn)大模型與GPT這類先進(jìn)的大模型之間,到底存在著怎樣的發(fā)展區(qū)別呢?本篇文章具體分析國(guó)產(chǎn)大模型發(fā)展受限的原因,以及其面臨的一些考驗(yàn),希望能對(duì)你有一定的參考幫助。

縱觀人類的科技發(fā)展史,都由泡沫中的幸存者來(lái)繼續(xù)推動(dòng)的。即使人類本身,也是物種大爆發(fā)這場(chǎng)生物泡沫的幸運(yùn)兒。

最近,F(xiàn)acebook早期投資者Roger McNamee在CNBC上批評(píng)人們對(duì)AI的狂熱,是“忘掉了過(guò)去科技泡沫帶來(lái)的痛”。

同樣的,在國(guó)內(nèi),面對(duì)越來(lái)越多的大模型,部分頭腦冷靜的人士,也顯示出自己的擔(dān)憂。

“這么多的大模型,真正有自己技術(shù)的有幾個(gè)”?

“有幾家公司能持續(xù)投入下去”?

更有頭部VC機(jī)構(gòu)人士認(rèn)為,經(jīng)過(guò)他們的私下測(cè)試和摸底,幾乎國(guó)內(nèi)所有的大模型,都是PR項(xiàng)目…

眾所周知,大模型的訓(xùn)練是一個(gè)成本極高的過(guò)程,需要大量的算力和資金支持。

以O(shè)penAI為例,GPT-3的單次訓(xùn)練成本就高達(dá)140萬(wàn)美元,對(duì)于一些更大的大模型,訓(xùn)練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。

用知名計(jì)算機(jī)專家吳軍的話來(lái)形容,ChatGPT每訓(xùn)練一次,相當(dāng)于報(bào)廢了3000輛特斯拉汽車。

這個(gè)數(shù)字告訴人們:要想打造有競(jìng)爭(zhēng)力的大模型,不下血本是不行的。

某些體量、資金不足,卻仍舊叫囂著要“對(duì)標(biāo)ChatGPT”的企業(yè),其本身的實(shí)力,難免讓人產(chǎn)生懷疑。

例如某個(gè)在發(fā)布大模型后,自身股價(jià)最高暴漲338%的國(guó)內(nèi)公司(此處就不點(diǎn)名了),其賬上的貨幣資金不過(guò)13億元。

然而,以ChatGPT的訓(xùn)練成本為例,要想背后的智能算力集群,僅GPU顯卡采購(gòu)成本就超過(guò)了10億元。國(guó)內(nèi)目前能夠支撐起類似基礎(chǔ)設(shè)施的企業(yè)不超過(guò)3家。

也正因如此,在這場(chǎng)表面熱鬧的大模型競(jìng)賽中,注定有一大票公司,都只是打著大模型的名號(hào),來(lái)實(shí)現(xiàn)自身利益的“陪跑者”罷了……

不過(guò)縱觀人類的科技發(fā)展史,都由泡沫中的幸存者來(lái)繼續(xù)推動(dòng)的。即使人類本身,也是物種大爆發(fā)這場(chǎng)生物泡沫的幸運(yùn)兒。如果泡沫無(wú)法避免,從業(yè)者真正需要的是面對(duì)泡沫時(shí)的冷靜和定力。

一、數(shù)據(jù)孤島

國(guó)產(chǎn)大模型能否達(dá)到或超越GPT這類先進(jìn)模型的水平,有兩個(gè)較為主要的因素:

  1. 在數(shù)據(jù)集的獲取上,如何不斷積累足夠多、且高質(zhì)量的數(shù)據(jù)集;
  2. 在煉制大模型的“工藝”上,如何不斷探索和突破,找到新的理論和方法。

先說(shuō)第一點(diǎn)。

目前,在大模型的訓(xùn)練上,用來(lái)訓(xùn)練的主流數(shù)據(jù)集以英文為主,中文數(shù)據(jù)只占據(jù)4.8%。

之前清華計(jì)算機(jī)系教授唐杰,在對(duì)千億模型ChatGLM-130B訓(xùn)練前數(shù)據(jù)準(zhǔn)備時(shí),就曾面臨過(guò)清洗中文數(shù)據(jù)后,可用量不到2TB的情況。

這就是國(guó)內(nèi)所有做大模型的團(tuán)隊(duì)不得不面對(duì)的慘烈現(xiàn)狀。

為解決這個(gè)問(wèn)題,許多國(guó)內(nèi)團(tuán)隊(duì),都開始通過(guò)“眾志成城”的方式,開源自身的中文數(shù)據(jù)集,以希望彌補(bǔ)高質(zhì)量中文數(shù)據(jù)集的不足。

但是,這種通過(guò)各個(gè)團(tuán)隊(duì)“自覺”開源的方式,仍然存在著一定局限性,那就是:由于數(shù)據(jù)的敏感性、隱私性和所有權(quán)等問(wèn)題,很多行業(yè)和領(lǐng)域的數(shù)據(jù)并不容易獲得或共享。

國(guó)內(nèi)數(shù)據(jù)大量?jī)?chǔ)存于移動(dòng)端APP中,于訓(xùn)練大模型而言比較難于抓取。

同時(shí)國(guó)內(nèi)互聯(lián)網(wǎng)巨頭之間的數(shù)據(jù)相互封閉,數(shù)據(jù)孤島化情況嚴(yán)重。

例如百度的內(nèi)容生態(tài)數(shù)據(jù),騰訊的公眾號(hào)數(shù)據(jù),阿里的電商和物流數(shù),這些屬于各大企業(yè)的私有數(shù)據(jù)。雖然都在各自的行業(yè)和場(chǎng)景,積累了外人所不能及的優(yōu)勢(shì),但由其所有權(quán)和隱私性的問(wèn)題,導(dǎo)致很難與外界進(jìn)行共享。

而這些不容易獲取的數(shù)據(jù),往往無(wú)法依賴各團(tuán)隊(duì)的“自愿”和“主動(dòng)”進(jìn)行開源。

針對(duì)這一問(wèn)題,走在前列的美國(guó)AI產(chǎn)業(yè),早已通過(guò)更成熟的數(shù)據(jù)共享平臺(tái)、數(shù)據(jù)交易市場(chǎng)、數(shù)據(jù)信托等機(jī)制,促進(jìn)了數(shù)據(jù)的流通和價(jià)值發(fā)現(xiàn)。

具體來(lái)說(shuō),在這些數(shù)據(jù)交易平臺(tái)中,第三方數(shù)據(jù)擁有者可以將原始數(shù)據(jù)掛到數(shù)據(jù)交易市場(chǎng)上公開出售,數(shù)據(jù)需求方按照約定價(jià)格(買斷數(shù)據(jù)/按小時(shí)計(jì)費(fèi)、平臺(tái)會(huì)員費(fèi))購(gòu)買后,可以在數(shù)據(jù)交易平臺(tái)上獲得離線的數(shù)據(jù)包或者實(shí)時(shí)API。

若最終成功交易,平臺(tái)收取一定傭金后返還銷售收入給第三方數(shù)據(jù)擁有者。這類型數(shù)據(jù)交易平臺(tái)代表有RapidAPI、Streamr等。

與之相比,國(guó)內(nèi)大數(shù)據(jù)交易仍處于起步階段,數(shù)據(jù)交易主要以單純的原始數(shù)據(jù)“粗加工”交易為主。且數(shù)據(jù)供需不對(duì)稱,使得數(shù)據(jù)交易難以滿足社會(huì)有效需求,數(shù)據(jù)成交率和成交額不高。

此外,在數(shù)據(jù)交易過(guò)程中,國(guó)內(nèi)市場(chǎng)也缺乏全國(guó)統(tǒng)一的規(guī)范體系和必要的法律保障,無(wú)法有效破解數(shù)據(jù)定價(jià)、數(shù)據(jù)確權(quán)等難題。

從長(zhǎng)遠(yuǎn)來(lái)看,國(guó)內(nèi)大模型要想在數(shù)據(jù)的數(shù)量、質(zhì)量上進(jìn)一步得到提升,就不能單單只靠部分團(tuán)隊(duì)“自愿”和“主動(dòng)”的開源,而要在法律、市場(chǎng)機(jī)制等方面,做出更多與時(shí)俱進(jìn)的改革。如此方能促進(jìn)各個(gè)行業(yè)間數(shù)據(jù)的廣泛共享。

二、“工藝”的差距

除了數(shù)據(jù)集的數(shù)量、質(zhì)量外,另一個(gè)決定大模型能力強(qiáng)弱的關(guān)鍵因素,就是煉制大模型的“工藝”。

前段時(shí)間,復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華就表示:與國(guó)際同行相比,模型、數(shù)據(jù)和算力并不是中國(guó)最大的劣勢(shì),真正的短板在于對(duì)大模型“煉制”工藝的掌握,包括數(shù)據(jù)配方、數(shù)據(jù)清洗和參數(shù)設(shè)置等等。

現(xiàn)在有些國(guó)內(nèi)大模型,動(dòng)輒就對(duì)外號(hào)稱“百億”、“千億”規(guī)模,仿佛參數(shù)量越大,模型性能就愈強(qiáng)。

然而,空有龐大的規(guī)模,卻缺乏先進(jìn)的“工藝”,這就像一個(gè)腦容量頗大,但卻掌握不到學(xué)習(xí)要領(lǐng)的學(xué)生,難以在學(xué)習(xí)能力上進(jìn)一步“精進(jìn)”。

具體來(lái)說(shuō),如果將煉制大模型的過(guò)程,類比成一座工廠中的流水線。那么數(shù)據(jù)配方就像在開始生產(chǎn)之前選擇原材料一樣,需要選擇不同的數(shù)據(jù)集,確定不同領(lǐng)域、不同類型、不同模態(tài)數(shù)據(jù)的配比。

而數(shù)據(jù)清洗就像對(duì)原材料的加工一樣,對(duì)原始語(yǔ)料進(jìn)行去噪、去重、過(guò)濾、規(guī)范化等操作,提取有用的信息;

參數(shù)設(shè)置就像生產(chǎn)過(guò)程中的調(diào)整和優(yōu)化一樣,通過(guò)選擇合適的超參數(shù),如學(xué)習(xí)率、批次大小等,以達(dá)到最佳的效果。

雖然上述的每一個(gè)具體步驟,國(guó)內(nèi)其實(shí)都知道怎么做,但是將它們整合在一起,總體效果和國(guó)外是存在差距的。

這雖然不是0和1的區(qū)別,但卻是50分和100分的區(qū)別。

所以,大模型的研制與開發(fā),終歸是一個(gè)易學(xué)難精的過(guò)程。而要想進(jìn)一步提升這樣的工藝,就必須在人工智能的基礎(chǔ)理論、工程實(shí)踐以及創(chuàng)新思維上不斷積累,從而實(shí)現(xiàn)在關(guān)鍵環(huán)節(jié)上的突破和領(lǐng)先。

可問(wèn)題是,這些反復(fù)試錯(cuò)、探索的過(guò)程,往往是一個(gè)需要消耗大量時(shí)間、資源,且并沒有實(shí)際產(chǎn)出與盈利的過(guò)程。

即便是創(chuàng)造了ChatGPT的OpenAI,目前也處于嚴(yán)重虧損的狀態(tài)(其去年的虧損已達(dá)5.4億美元)。

這對(duì)于國(guó)內(nèi)許多急功近利的企業(yè)而言,無(wú)疑是一個(gè)重大的考驗(yàn)。

因?yàn)閲?guó)內(nèi)巨頭們對(duì)技術(shù)性風(fēng)口的追逐和熱愛,不堅(jiān)定,也缺乏耐心。

舉例來(lái)說(shuō),全民造芯運(yùn)動(dòng)中,在2017年,資本對(duì)半導(dǎo)體的狂熱達(dá)到了一個(gè)頂端,創(chuàng)下至今最高歷史記錄,單筆平均融資達(dá)到 8億元。

然而,一旦察覺某類技術(shù)的研發(fā),是一場(chǎng)漫長(zhǎng)且難見收益的過(guò)程,某些企業(yè)的“浮躁”與“搖擺”就會(huì)逐漸顯現(xiàn)。

2020年,武漢弘芯半導(dǎo)體,號(hào)稱千億投資,臺(tái)積電技術(shù)大牛執(zhí)掌。但成立僅僅三年,就被曝出項(xiàng)目欠薪停擺。武漢弘芯將大陸唯一一臺(tái),價(jià)值5億多元,能夠生產(chǎn)7nm芯片的光刻機(jī),拿去銀行抵押續(xù)命。

由此可見,國(guó)內(nèi)外大模型的競(jìng)爭(zhēng),表面上看,是數(shù)據(jù)集多寡、質(zhì)量高低的競(jìng)爭(zhēng);稍微深入了看,是大模型工藝的比拼;而再深入到底層,就變成了不同的商業(yè)文化,乃至生態(tài)的綜合競(jìng)爭(zhēng)了。

作者:舉大名耳

來(lái)源公眾號(hào):AI新智能

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @AI新智能 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!