DeepSeek的華麗文風(fēng)是怎樣煉成的?

0 評論 123 瀏覽 0 收藏 19 分鐘

“DeepSeek 文風(fēng)探秘,技術(shù)與人才的交織。” 在 AI 大模型競爭激烈的當(dāng)下,DeepSeek 為何能展現(xiàn)出獨(dú)特的華麗文風(fēng)?其背后的訓(xùn)練機(jī)制、數(shù)據(jù)處理、人才因素以及獎(jiǎng)勵(lì)機(jī)制是如何相互作用的?又該如何看待其存在的問題?

去年還不相信AGI(通用人工智能)投資敘事的知名投資人朱嘯虎,在被DeepSeek支配了一整個(gè)春節(jié)后,態(tài)度大變,“DeepSeek快讓我相信AGI了?!?/p>

在近期接受騰訊新聞采訪時(shí),朱嘯虎多次驚嘆于DeepSeek在內(nèi)容生成方面的優(yōu)美和深度。

不止朱嘯虎。在DeepSeek以假亂真,模仿梁文鋒口吻回復(fù)馮驥的“國運(yùn)論”造假文章出現(xiàn)后,作家兼脫口秀演員的李誕點(diǎn)評道,文章透露出一種非常DeepSeek的味道。這種味道被李誕概括為“科技抒情散文詩”。

更重要的是,在優(yōu)美和深度之外,DeepSeek讓更多普通人第一次體會(huì)到了AI對話產(chǎn)品的易用性。

在此之前,用戶想要讓ChatGPT等AI對話產(chǎn)品輸出更準(zhǔn)確的答案,往往需要學(xué)習(xí)一套較為復(fù)雜的Prompt(提示詞)技巧,但在DeepSeek上面,用戶只需要輸入簡單的自然語言,就能夠得到相對準(zhǔn)確的答復(fù),且這些答復(fù)還能呈現(xiàn)出擬人化的特點(diǎn)。

DeepSeek對人類情感價(jià)值的精準(zhǔn)拿捏,一度使得其憑借“陰陽怪氣”中文十級的表現(xiàn),收獲了“賽博嘴替”的美名。

飆漲的用戶數(shù)據(jù),成了外界追捧DeepSeek的另一力證。AI產(chǎn)品榜的一份統(tǒng)計(jì)數(shù)據(jù)顯示,DeepSeek應(yīng)用在上線20天后,其DAU(日活用戶)便突破了2000萬,距離成為國內(nèi)日活用戶數(shù)第一的AI對話應(yīng)用,指日可待。

盡管DeepSeek堅(jiān)持開源路線,但在其引發(fā)熱議的R1最新模型上,DeepSeek尚未公開其預(yù)訓(xùn)練語料,這也使得外界好奇其優(yōu)美華麗的文風(fēng),究竟是怎么訓(xùn)練出來的。

字母榜(ID:wujicaijing)首先把這個(gè)問題拋給了 DeepSeek,它從風(fēng)格化數(shù)據(jù)蒸餾體系,動(dòng)態(tài)風(fēng)格遷移架構(gòu),對抗式強(qiáng)化學(xué)習(xí)框架等維度給出了自己的解釋。

緊接著,字母榜又嘗試讓國內(nèi)月活用戶排名前三的大模型(DeepSeek除外)回答了下,它們給出了一個(gè)共同原因是,DeepSeek可能在語料選擇上用了更多文學(xué)小說素材。

就連朱嘯虎也揣測,這可能跟DeepSeek團(tuán)隊(duì)喜歡優(yōu)美的文字,喜歡哲學(xué)、量子力學(xué)等有關(guān)。

DeepSeek的文藝青年氣質(zhì),或許能從他們在宣布下場追逐AGI的宣言中略窺一二。2023年4月,幻方量化(DeepSeek母公司)在發(fā)布做大模型公告時(shí),引用了法國新浪潮導(dǎo)演特呂弗曾告誡青年導(dǎo)演的一句話:“務(wù)必要瘋狂地懷抱雄心,且還要瘋狂地真誠。”

在國內(nèi)從事大模型創(chuàng)業(yè)的李振(化名),也做過類似的文風(fēng)對比,“就是風(fēng)格控制的顆粒度不同。其他國內(nèi)大模型產(chǎn)品,在文學(xué)向標(biāo)簽上可能都沒有DeepSeek多?!崩钫窀嬖V字母榜,在文學(xué)語言占比上,據(jù)其推測,國內(nèi)其他大模型,可能在語料庫中的比例維持在10%-20%,DeepSeek則可能高達(dá)40%。

除了數(shù)據(jù)來源不同之外,如何使用數(shù)據(jù)同樣會(huì)影響大模型產(chǎn)品的內(nèi)容生成效果。《生成式人工智能》作者、人工智能商業(yè)化專家丁磊博士,特意提到了DeepSeek R1模型中所展現(xiàn)的“aha moment”頓悟時(shí)刻,即模型學(xué)會(huì)了反思,“這證明了其不斷增長的推理能力,也說明了強(qiáng)化學(xué)習(xí)可以帶來復(fù)雜甚至意想不到的結(jié)果?!?/p>

無論是對風(fēng)格控制顆粒度的認(rèn)知細(xì)化,還是“aha moment”頓悟時(shí)刻的到來,這背后都少不了DeepSeek的高人才密度支持。

在人才方面的高密度和高自主性,被參與大模型投資的恒業(yè)資本創(chuàng)始合伙人江一視為是DeepSeek生成優(yōu)美華麗文風(fēng)的第一因素?!跋啾榷裕糠执竽P凸镜膯T工,在自主性上不夠開放,使得在大模型產(chǎn)品研發(fā)上更多呈現(xiàn)出靶向性的特征,最終的生成效果就顯得中規(guī)中矩。”

A

DeepSeek的內(nèi)容生成優(yōu)勢之一,在于構(gòu)建了一個(gè)比較獨(dú)特的文學(xué)增強(qiáng)型數(shù)據(jù)生態(tài),即把自然語言生成轉(zhuǎn)化成一個(gè)可控的風(fēng)格系統(tǒng),從而使得可以把文學(xué)創(chuàng)作領(lǐng)域的專業(yè)評價(jià)體系轉(zhuǎn)化成相對應(yīng)的函數(shù),進(jìn)而構(gòu)建起一個(gè)風(fēng)格表征的數(shù)學(xué)建模。

為了達(dá)成上述效果,相比國內(nèi)其他大模型,DeepSeek在數(shù)據(jù)標(biāo)簽上就需要做得更細(xì)更多樣化。這也是國內(nèi)大模型創(chuàng)業(yè)者李振感慨DeepSeek文學(xué)向標(biāo)簽更多的原因所在。

去年3月,在受邀參加英偉達(dá)GTC 2024大會(huì)時(shí),DeepSeek研究員便圍繞“大模型價(jià)值觀和人類價(jià)值觀對齊”的主題,發(fā)表過一篇《和而不同:大語言模型價(jià)值觀對齊解耦化》的演講,其中提到DeepSeek構(gòu)建了一個(gè)跨學(xué)科的專家團(tuán)隊(duì),對不同社會(huì)背景人群的價(jià)值觀的公約數(shù)進(jìn)行了分類學(xué)研究,從而構(gòu)建了一個(gè)三級標(biāo)簽的價(jià)值觀分類體系。

人工智能商業(yè)化專家丁磊博士告訴字母榜,數(shù)據(jù)標(biāo)注之外,前期的數(shù)據(jù)質(zhì)量對模型訓(xùn)練至關(guān)重要,“DeepSeek在長思維鏈數(shù)據(jù)的收集和標(biāo)注、推理和非推理數(shù)據(jù)的質(zhì)量等方面,都有獨(dú)到之處?!?/p>

根據(jù)官方公開的技術(shù)報(bào)告,在獲取高質(zhì)量數(shù)據(jù)方面,R1模型使用了數(shù)據(jù)蒸餾技術(shù)(Distillation)生成的高質(zhì)量數(shù)據(jù),提升了訓(xùn)練效率。這也是DeepSeek能夠憑借更小參數(shù)量,就實(shí)現(xiàn)比肩OpenAI o1模型性能的一大關(guān)鍵。

丁磊博士進(jìn)一步解釋道,模型參數(shù)量大小與最終模型呈現(xiàn)的效果之間,兩者“投入產(chǎn)出并不成正比,而是非線性的……數(shù)據(jù)多只是一個(gè)定性,更重要的是考驗(yàn)團(tuán)隊(duì)數(shù)據(jù)清洗的能力,否則隨著數(shù)據(jù)增多,數(shù)據(jù)干擾也將隨之變大?!?/p>

谷歌就是前車之鑒。不管從算力還是算法,谷歌并不比OpenAI差,甚至還要強(qiáng),但恰恰是借助基于人類反饋的強(qiáng)化數(shù)據(jù)訓(xùn)練工作,OpenAI最終趕在谷歌前面做出了ChatGPT。

即便在ChatGPT已經(jīng)誕生2年多后的當(dāng)下,業(yè)內(nèi)部分大模型公司,依然存在在數(shù)據(jù)訓(xùn)練環(huán)節(jié)投機(jī)取巧的行為,比如“采用數(shù)據(jù)注水的手段,將還沒進(jìn)行標(biāo)注的數(shù)據(jù),直接投喂給大模型?!崩钫裾f道。

甚至在李振看來,不同的數(shù)據(jù)處理方式,使得DeepSeek在訓(xùn)練范式上有了代際差距優(yōu)勢,部分國內(nèi)大模型更多還是通用語料加基礎(chǔ)過濾來完成預(yù)訓(xùn)練工作,“DeepSeek則可能加入了對抗式數(shù)據(jù)清洗環(huán)節(jié)?!崩钫癖硎?。

DeepSeek內(nèi)部也的的確確在進(jìn)行對抗式測試。去年3月的演講中,DeepSeek研究員曾講到,實(shí)際模型生產(chǎn)過程中,內(nèi)部會(huì)進(jìn)行模型的迭代式開發(fā),“即每輪的訓(xùn)練結(jié)束之后,都會(huì)有一個(gè)獨(dú)立的測試團(tuán)隊(duì),對模型在各個(gè)維度上的安全性進(jìn)行充分的測試,并給出反饋意見來指導(dǎo)進(jìn)行下一個(gè)周期的數(shù)據(jù)迭代和模型訓(xùn)練?!?/p>

不同的訓(xùn)練方式,也導(dǎo)致即便是使用同樣的中文語料庫,最終訓(xùn)練出來的大模型,在文風(fēng)上也會(huì)有完全不一樣的呈現(xiàn)。

而且,在R1模型加入RL(強(qiáng)化學(xué)習(xí))之后,強(qiáng)化學(xué)習(xí)的訓(xùn)練次數(shù)也可能導(dǎo)致最終的文風(fēng)不同。李振介紹,DeepSeek的PPO(強(qiáng)化學(xué)習(xí))迭代輪次可能在50到80,國內(nèi)其他大模型可能在20左右。

導(dǎo)致輪次不同的原因之一在于,各個(gè)公司對產(chǎn)品功能的押注重點(diǎn)不同。朱嘯虎以廚師做飯打了個(gè)比喻,“就像廚師,以后有幾個(gè)米其林大廚,有些擅長川菜,有些擅長粵菜——它在組織語料或參數(shù)權(quán)重上的差別,就會(huì)造成回復(fù)的答案有差異性?!?/p>

B

華麗優(yōu)美文風(fēng)之外,DeepSeek生成內(nèi)容的驚艷之處還在于,表現(xiàn)形式上做到科技抒情散文詩的一大前提,是首先確保了生成內(nèi)容具備更高的事實(shí)準(zhǔn)確性。

在丁磊博士看來,這有兩方面原因促成:一是模型的自我進(jìn)化,模型學(xué)會(huì)通過更多的推理計(jì)算來解決復(fù)雜的任務(wù),這不是來自外部設(shè)置而是模型自己學(xué)會(huì)的;二是模型的“aha moment”頓悟時(shí)刻,即模型學(xué)會(huì)了“反思”,這證明了其不斷增長的推理能力,也說明了強(qiáng)化學(xué)習(xí)可以帶來復(fù)雜甚至意想不到的結(jié)果。

基于DeepSeek R1模型,官方還同步推出了R1-Zero模型,后者直接將RL應(yīng)用于基礎(chǔ)模型,而無需依賴SFT(監(jiān)督微調(diào))和已標(biāo)注數(shù)據(jù)。

此前,OpenAI的數(shù)據(jù)訓(xùn)練非常依賴人工干預(yù),旗下數(shù)據(jù)團(tuán)隊(duì)甚至被建設(shè)成為不同水平的層級,數(shù)據(jù)量大、標(biāo)注要求簡單明確的淺層數(shù)據(jù),交給肯尼亞等廉價(jià)外包勞工,高等級的數(shù)據(jù)則交給更高素質(zhì)標(biāo)記人員,不少都是訓(xùn)練有素的高校博士。

但這樣帶來的結(jié)果之一便是,堆高數(shù)據(jù)獲取成本,且面臨數(shù)據(jù)標(biāo)注質(zhì)量參差不齊的難題,從而限制著大模型的規(guī)模泛化能力。

R1-Zero的出現(xiàn),恰恰是DeepSeek希望通過純機(jī)器學(xué)習(xí)來解決上述難題的一大嘗試,Perplexity公司CEO阿拉文·斯里尼瓦斯評價(jià)道:“需求是發(fā)明之母。因?yàn)镈eepSeek必須找到解決辦法,最終它們創(chuàng)造出了更高效的技術(shù)?!?/p>

在DeepSeek對外分享的R1模型技術(shù)報(bào)告中,團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)推理階段,意外發(fā)現(xiàn)了“aha moment”頓悟時(shí)刻,這預(yù)示著模型自身開始在某一時(shí)刻具備了自我反思能力。例如在解決數(shù)學(xué)方程時(shí),模型會(huì)主動(dòng)糾正早期錯(cuò)誤步驟,還能根據(jù)訓(xùn)練逐步學(xué)會(huì)分配更多思考時(shí)間,生成更長的推理過程,以解決復(fù)雜問題。

這種 “頓悟” 現(xiàn)象的出現(xiàn),離不開一種特殊獎(jiǎng)勵(lì)機(jī)制的引導(dǎo)。根據(jù)官方技術(shù)文檔,DeepSeek R1模型,沒有使用MCTS(蒙特卡洛樹搜索)類技術(shù),而是在PPO算法之下采用了一種特殊的基于規(guī)則的獎(jiǎng)勵(lì)函數(shù),根據(jù)生成輸出的格式和正確性分配獎(jiǎng)勵(lì),一般包括三種情況:

如果輸出以指定格式提供最終答案且正確,獲得+1的獎(jiǎng)勵(lì);

如果輸出提供最終答案但不正確,獎(jiǎng)勵(lì)設(shè)為-0.5;

如果輸出未能提供最終答案,獎(jiǎng)勵(lì)設(shè)為-1。

“我們沒直接教模型如何解決問題,只是給予它正確的激勵(lì),模型就能自己琢磨出先進(jìn)的解題辦法?!盌eepSeek官方如此解釋道。

C

無論是構(gòu)建風(fēng)格表征的數(shù)學(xué)建模,還是推動(dòng)“aha moment”頓悟時(shí)刻的出現(xiàn),背后都離不開DeepSeek對人才的重視和培養(yǎng)。

在參與大模型投資的恒業(yè)資本創(chuàng)始合伙人江一看來,DeepSeek的高人才密度,外加內(nèi)部人才的高自主性,強(qiáng)強(qiáng)結(jié)合,“使得DeepSeek內(nèi)部產(chǎn)生了多樣性的涌現(xiàn),在窮舉多個(gè)選項(xiàng)之后,優(yōu)中選優(yōu),最終選定了現(xiàn)在的這種華麗優(yōu)美文風(fēng)。”

上述人才特性也能從梁文鋒的對外采訪中印證一二。在接受36氪采訪時(shí),梁文鋒曾介紹,DeepSeek管理遵循自下而上模式,且每個(gè)人對于卡和人的調(diào)動(dòng)不設(shè)上限?!叭绻邢敕?,每個(gè)人隨時(shí)可以調(diào)用訓(xùn)練集群的卡無需審批?!?/p>

去年5月份率先打響行業(yè)價(jià)格戰(zhàn)的DeepSeek V2模型,其中的技術(shù)創(chuàng)新之一MLA(一種新的多頭潛在注意力機(jī)制)架構(gòu),就來自一個(gè)年輕研究員的個(gè)人興趣。

當(dāng)時(shí),在總結(jié)出Attention架構(gòu)的一些主流變遷規(guī)律后,這位年輕研究員突發(fā)奇想設(shè)計(jì)了一個(gè)替代方案,DeepSeek為此組建了一個(gè)專項(xiàng)攻堅(jiān)團(tuán)隊(duì),花了幾個(gè)月時(shí)間將MLA落地。

在科技領(lǐng)域,自信是創(chuàng)新的首要前提,而梁文鋒認(rèn)為這種信心通常在年輕人身上更為明顯。所以,DeepSeek內(nèi)部多是一幫Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,以及一些畢業(yè)才幾年的年輕人。

“如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對的。但如果看長遠(yuǎn),經(jīng)驗(yàn)就沒那么重要,基礎(chǔ)能力、創(chuàng)造性、熱愛等更重要?!绷何匿h解釋道。

相比而言,在江一觀察中,部分大模型公司,在對待員工上則表現(xiàn)出更強(qiáng)的控制力,員工缺少自主性,“更多呈現(xiàn)出靶向性的研發(fā)特征,即部門確定一個(gè)最終達(dá)成的效果目標(biāo),所有的人都奔著這一目標(biāo)而做好自己分內(nèi)的工作,使得最終模型呈現(xiàn)出來的效果,顯得中規(guī)中矩?!?/p>

不過,需要注意的是,盡管DeepSeek生成的優(yōu)美文風(fēng),被部分人喜愛,但也開始引發(fā)部分人的警惕,這些內(nèi)容乍一看很好,但“仔細(xì)品讀會(huì)發(fā)現(xiàn)很多的語法錯(cuò)誤。”內(nèi)容從業(yè)者王旭告訴字母榜。

以開頭那篇梁文鋒回應(yīng)馮驥贊譽(yù)的虛假文章為例,其中有句話寫到,“既因?yàn)楸恍袠I(yè)前輩認(rèn)可的惶恐,更因?yàn)轳T總這些灼熱的文字讓我想起十二年前在浙大實(shí)驗(yàn)室第一次跑通神經(jīng)網(wǎng)絡(luò)時(shí)的顫栗?!弊屑?xì)品讀后,王旭便從中識別出了一些語病。

相比語病,更不易察覺的是,借助更逼真、擬人化的文風(fēng),DeepSeek的幻覺現(xiàn)象,依然存在。

在被王旭品讀出語病的“既因?yàn)楸恍袠I(yè)前輩認(rèn)可的惶恐,更因?yàn)轳T總這些灼熱的文字讓我想起十二年前在浙大實(shí)驗(yàn)室第一次跑通神經(jīng)網(wǎng)絡(luò)時(shí)的顫栗?!边@句話中,乍一看,DeepSeek不僅給出了場景細(xì)節(jié),還給出了具體的時(shí)間節(jié)點(diǎn),不由得就會(huì)讓人相信這都是曾經(jīng)真實(shí)發(fā)生過的畫面。

但簡單搜索下梁文鋒的履歷便可知道,在十二年前的2013年,梁文鋒已經(jīng)從浙江大學(xué)碩士畢業(yè)三年。當(dāng)年,梁文鋒與其浙大同學(xué)徐進(jìn)共同創(chuàng)立了杭州雅克比投資管理有限公司,DeepSeek給出的梁文鋒在浙大實(shí)驗(yàn)室做實(shí)驗(yàn)的場景,大概率是自行編造而來。

隨著大模型在可靠性上表現(xiàn)出來的能力越來越強(qiáng),其迷惑性的一面也隨之增強(qiáng)。作為人類的我們,或許是時(shí)候該學(xué)學(xué)如何提高辨別AI內(nèi)容時(shí),自身的可靠性了。

本文由人人都是產(chǎn)品經(jīng)理作者【字母榜】,微信公眾號:【字母榜】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!