DeepSeek才是“真正的OpenAI”?
“DeepSeek R1 崛起,AI 開源新篇開啟?!?在 AI 模型競(jìng)爭(zhēng)激烈的當(dāng)下,DeepSeek R1 有何獨(dú)特之處?它如何實(shí)現(xiàn)強(qiáng)大性能?又為何被視為推動(dòng) AI 發(fā)展的重要力量?
“爆打奸商OpenAI?!?/p>
“DeepSeek才是真正的‘OpenAI’!”
還有人做了一幅賽博對(duì)聯(lián):“上聯(lián):真本事酒香不怕巷子深。下聯(lián):不公關(guān)真金不怕火來煉。橫批:DeepSeek?!?/p>
這是昨晚推理模型DeepSeek R1發(fā)布之后的評(píng)論區(qū),清一色為DeepSeek的叫好聲。而與此形成對(duì)比的是,大洋彼岸的OpenAI,正在遭遇o3的打假風(fēng)波。有人爆料稱,o3之所以在數(shù)學(xué)基準(zhǔn)FrontierMath上取得驚人的成績,是因?yàn)镺penAI資助了FrontierMath,并且可以訪問大部分?jǐn)?shù)據(jù)集。
OpenAI的推理模型o1與o3都是閉源模型。在其網(wǎng)站上有關(guān)o1模型的技術(shù)原理中,有信息量的其實(shí)只有短短的一句話:o1模型通過大規(guī)模強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,以使用思維鏈(chain-of-thought)進(jìn)行推理。而更多的技術(shù)細(xì)節(jié)則只字未提。
而DeepSeek,則直接開源了一篇20多頁的詳細(xì)技術(shù)報(bào)告。
英偉達(dá)AI科學(xué)家Jim Fan稱贊DeepSeek是“真正開放的前沿研究,賦能所有人”,并直言Deepseek才是保持初心的“OpenAI”。
一、強(qiáng)化學(xué)習(xí)引導(dǎo)“頓悟時(shí)刻”
DeepSeek R1發(fā)布的論文中提到,提升推理能力的一種有效辦法是“后訓(xùn)練”(post-training),主要包括監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)兩個(gè)方向。
SFT的使用是ChatGPT當(dāng)初成功的關(guān)鍵,而今天的R1 Zero完全用RL取代了SFT??梢哉f,此次DeepSeek R1發(fā)布最大的亮點(diǎn),就是“沒有監(jiān)督微調(diào)下的直接強(qiáng)化學(xué)習(xí)”。
此次DeepSeek開源了三個(gè)系列的模型,分別是DeepSeek-R1-Zero、DeepSeek-R1推理大模型和六個(gè)稠密小模型。其中,DeepSeek-R1-Zero直接將RL應(yīng)用于基礎(chǔ)模型而無需任何SFT數(shù)據(jù);DeepSeek-R1從使用數(shù)千個(gè)長思維鏈(CoT)示例微調(diào)的檢查點(diǎn)開始應(yīng)用RL;六個(gè)稠密小模型則基于Qwen和Llama,從DeepSeek-R1蒸餾得到。
DeepSeek團(tuán)隊(duì)做的第一件事,就是嘗試“零監(jiān)督”直接對(duì)基礎(chǔ)模型進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練(即純RL),得到了 DeepSeek-R1-Zero。
具體而言,他們使用DeepSeek-V3-Base作為基礎(chǔ)模型,并采用GRPO作為RL框架來提高模型在推理方面的性能。它不再引入與模型同等規(guī)模的Critic網(wǎng)絡(luò),而是把一次性采樣到的一組輸出互相做對(duì)比,就像讓模型在同一個(gè)問題上輸出多個(gè)答案,比較每個(gè)答案得分的高低,得分高的就學(xué)“該怎么寫”,得分低的則學(xué)“不要那樣寫”。
接著,DeepSeek團(tuán)隊(duì)設(shè)計(jì)了一組基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)(包含準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì)兩種模型),通過不斷告訴模型“什么是好”的方式,反復(fù)訓(xùn)練模型。
經(jīng)過數(shù)千次RL步驟后,DeepSeek-R1-Zero的推理性能穩(wěn)步提升:不僅大幅提高了在數(shù)學(xué)、編程等推理任務(wù)上的準(zhǔn)確率,甚至學(xué)會(huì)了很多驚喜的“自發(fā)行為”,比如反思自己的答案,進(jìn)行多次思考迭代等,甚至出現(xiàn)了“頓悟時(shí)刻(aha moment)”。頓悟時(shí)刻不僅證明了模型推理能力的不斷增長,也是對(duì)強(qiáng)化學(xué)習(xí)所能產(chǎn)生復(fù)雜結(jié)果的絕佳說明。
DeepSeek-R1-Zero中級(jí)版本的“頓悟時(shí)刻”,模型學(xué)會(huì)重新思考,并使用擬人化的語氣
報(bào)告顯示,DeepSeek-R1-Zero在AIME 2024上的pass@1分?jǐn)?shù)從15.6%提高到了71.0%,通過多數(shù)投票,分?jǐn)?shù)進(jìn)一步提高到86.7%,與OpenAI-o1-0912的性能相匹配。
DeepSeek-R1-Zero在訓(xùn)練過程中的AIME精度,圖源:DeepSeek技術(shù)報(bào)告
然而,DeepSeek的團(tuán)隊(duì)發(fā)現(xiàn),DeepSeek-R1-Zero的這種“自發(fā)行為”有時(shí)也帶來缺點(diǎn),比如文字可讀性差、語言混亂等。為了解決這一問題,他們?cè)O(shè)計(jì)了一個(gè)四階段的流程,讓模型從“能思考”到“會(huì)表達(dá)”,DeepSeek-R1也就此誕生。
具體而言,DeepSeek團(tuán)隊(duì)先收集了少量的高質(zhì)量長鏈?zhǔn)酵评頂?shù)據(jù)(Long Chain-of-Thought),讓模型在上面做一個(gè)初步的監(jiān)督微調(diào)(SFT)作為冷啟動(dòng);接著使用類似DeepSeek-R1-Zero的強(qiáng)化學(xué)習(xí)方法訓(xùn)練模型;得到通過RL訓(xùn)練后模型產(chǎn)出的較大規(guī)模推理數(shù)據(jù)和通用SFT數(shù)據(jù)后,通過“拒絕采樣(Rejection Sampling)”的方法訓(xùn)練和微調(diào)DeepSeek-V3這一基座模型;最后再整體進(jìn)行一次“全場(chǎng)景強(qiáng)化學(xué)習(xí)(Reinforcement Learning for all Scenarios)”,最終得到了DeepSeek R1。
冷啟動(dòng)階段的引入,幫助模型跳過了純RL初期可能的混亂狀態(tài);RL幫助模型提升了在推理任務(wù)上的表現(xiàn);拒絕采樣+監(jiān)督微調(diào)的方法讓模型保留了正確或可讀性高的回答,最后一輪全場(chǎng)景的RL則讓模型在所有場(chǎng)景(比如聊天友好度、禮貌性、無害性、安全性等)中盡量滿足人類偏好。
通過這種方法訓(xùn)練出的DeepSeek-R1達(dá)到了世界頂尖模型的性能,從圖中可以看出,DeepSeek-R1在AIME2024上獲得了79.8%的成績,略高于OpenAI-o1-1217;在MATH-500上,它取得了97.3%的驚人成績,表現(xiàn)與OpenAI-o1-1217相當(dāng),并明顯優(yōu)于其他模型;在編碼相關(guān)的任務(wù)中,DeepSeek-R1在代碼競(jìng)賽任務(wù)中表現(xiàn)出專家水平,在Codeforces上獲得了2029 Elo評(píng)級(jí),競(jìng)賽中的表現(xiàn)優(yōu)于96.3%的人類參與者。對(duì)于工程相關(guān)的任務(wù),DeepSeek-R1的表現(xiàn)略優(yōu)于OpenAI-o1-1217。
DeepSeek-R1在各項(xiàng)基準(zhǔn)評(píng)測(cè)集上的表現(xiàn),圖源:DeepSeek技術(shù)報(bào)告
不僅開源了DeepSeeK-R1,DeepSeek還直接開源了從超小模型1.5B,到70B的各種型號(hào)模型。這些小模型是DeepSeek團(tuán)隊(duì)訓(xùn)練好的DeepSeek-R1基礎(chǔ)上,用Qwen和Llama等開源模型“蒸餾”的——先使用DeepSeek-R1 作為教師模型生成800K數(shù)據(jù),再用這些數(shù)據(jù)對(duì)幾個(gè)小模型進(jìn)行微調(diào)。相當(dāng)于把老師的推理思路“蒸餾”到了學(xué)生身上。
小模型的性能同樣令人驚喜:DeepSeek-R1-Distill-Qwen-1.5B在數(shù)學(xué)基準(zhǔn)測(cè)試上優(yōu)于GPT-4和Claude-3.5-Sonnet,在AIME上得分為28.9%,在MATH上為83.9%;其32B和70B的模型在多項(xiàng)能力上更是實(shí)現(xiàn)了對(duì)標(biāo)OpenAI o1-mini的效果。
DeepSeek-R1-Distill-Qwen-7b全面優(yōu)于GPT-4o-0513等非推理模型 圖源:DeepSeek技術(shù)報(bào)告
蒸餾模型和強(qiáng)化模型在推理相關(guān)基準(zhǔn)上的比較,圖源:DeepSeek技術(shù)報(bào)告
綜上,DeepSeek-R1展現(xiàn)了一種非常清晰的模型訓(xùn)練思路——數(shù)據(jù)即模型。DeepSeek-R1-Zero很可能只是用來給DeepSeek-R1生成推理數(shù)據(jù)的,而“數(shù)據(jù)的調(diào)配”是DeepSeek-R1訓(xùn)練過程中平衡不同任務(wù)策略的基石。此外,DeepSeek-R1的超強(qiáng)性能也證明了模型的能力仍未見底,而特定的數(shù)據(jù)是進(jìn)一步挖掘模型能力的關(guān)鍵。
二、大道至簡(jiǎn):用Rule-based寫一封給RL的情書
除了“數(shù)據(jù)即模型”的訓(xùn)練思路,DeepSeek-R1另一個(gè)突出的價(jià)值或許在于,它證明了“基于一個(gè)很強(qiáng)的模型、用最簡(jiǎn)單的Rule-based獎(jiǎng)勵(lì)來做RL、經(jīng)過大量訓(xùn)練,也能達(dá)到最強(qiáng)推理模型的效果”。
一個(gè)系統(tǒng)越簡(jiǎn)潔就意味著實(shí)現(xiàn)難度越大。正如AlphaGo早期也是走類似SFT的“監(jiān)督學(xué)習(xí)(Supervised Learning,SL)”的路線,后來經(jīng)歷了三個(gè)版本的迭代后,才推出了無需人類棋譜、可以自我對(duì)弈訓(xùn)練的AlphaGO Zero和Alpha Zero,轉(zhuǎn)向了完全的強(qiáng)化學(xué)習(xí)(RL)。
Rule-based(基于預(yù)定義規(guī)則的決策方法)是大模型在做可證實(shí)任務(wù)(verifiable task)中最直觀、也是最可靠的獎(jiǎng)勵(lì)方式,但同時(shí)也是最難的——正是因?yàn)橐?guī)則簡(jiǎn)潔,所以模型在外界找不到足夠多的獎(jiǎng)勵(lì)信號(hào),難以通過試錯(cuò)找到有效的策略。
因此,在復(fù)現(xiàn)OpenAI o1的道路上,眾多模型廠商一直在艱難探索什么樣的獎(jiǎng)勵(lì)方式才是更適合強(qiáng)化學(xué)習(xí)的——
早期過程獎(jiǎng)勵(lì)模型(PRM)是各大廠商的首選,但是由于其依賴高質(zhì)量的人類偏好數(shù)據(jù)、數(shù)據(jù)收集和標(biāo)注的成本極高,且訓(xùn)練不穩(wěn)定、容易發(fā)生Reward Hacking(獎(jiǎng)勵(lì)破解,指智能體通過利用獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)缺陷,找到一種非預(yù)期的方式最大化獎(jiǎng)勵(lì),而不是真正完成目標(biāo)任務(wù))現(xiàn)象,后來被很多團(tuán)隊(duì)棄用;
后來人們又探索出了基于結(jié)果的獎(jiǎng)勵(lì)模型(ORM),比如OpenAI在開發(fā)InstructGPT時(shí)將ORM用于評(píng)估生成文本的質(zhì)量,Qwen、Eurus、Moss模型在RLHF階段也會(huì)采用ORM來確保生成的內(nèi)容的流暢性和安全性。但是ORM難以捕捉復(fù)雜的、隱式的獎(jiǎng)勵(lì)信號(hào),而且在某些主觀性強(qiáng)的任務(wù)下可能也無法準(zhǔn)確反映真實(shí)目標(biāo)。
此外,像逆強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)模型(Inverse Reinforcement Learning, IRL)、分層獎(jiǎng)勵(lì)模型(Hierarchical Reward Model)等其他的獎(jiǎng)勵(lì)模型也各有各的問題。
在訓(xùn)練DeepSeek-R1系列模型的的過程中,DeepSeek同樣遇到了此類問題。比如他們?cè)趪L試過程獎(jiǎng)勵(lì)模型(PRM)的時(shí)候,發(fā)現(xiàn)雖然模型在重新排序模型生成的前N個(gè)回答或協(xié)助引導(dǎo)搜索方面表現(xiàn)出一定的能力,但在大規(guī)模強(qiáng)化學(xué)習(xí)過程中的優(yōu)勢(shì)是有限的;再比如,在嘗試蒙特卡洛樹搜索(MCTS)的過程中,遇到了搜索空間爆炸、價(jià)值模型訓(xùn)練困難等重大挑戰(zhàn)。
因此,行業(yè)的風(fēng)向也在逐漸回歸Rule-based,但前提是,要給定足夠多的Query(問詢),以確保Rule-based過程中對(duì)于各種突發(fā)情況的覆蓋,才能減少偏差,增強(qiáng)模型的泛化性和通用性。
比起其他廠商,DeepSeek做Rule-based有一個(gè)巨大的優(yōu)勢(shì)——他們不僅擁有足夠強(qiáng)的基座模型(DeepSeek-V3),其DeepSeek-Math/DeepSeek-Coder系列模型更是在多年做量化投資的過程中積累了大量數(shù)據(jù),可以很好地用Rule-based的方法,在大量訓(xùn)練的基礎(chǔ)上實(shí)現(xiàn)更好的推理效果。
正如NLP科學(xué)家Casper Hensen在X上發(fā)帖表示,“我的大腦拒絕接受這個(gè)強(qiáng)大模型的訓(xùn)練過程竟然可以如此簡(jiǎn)單”。但他拒絕接受的事實(shí)確實(shí)在DeepSeek身上發(fā)生了。
三、真正的開放AI在中國?
從2024年9月OpenAI發(fā)布o(jì)1-preview到現(xiàn)在,僅僅過去了不到四個(gè)月,市場(chǎng)上媲美甚至超越其性能的推理模型就已遍地開花:
- 2024年11月17日,Kimi發(fā)布數(shù)學(xué)推理模k0-math;
- 2024年11月20日, DeepSeek發(fā)布 R1-lite-preview;
- 2024年11月27 日,Qwen發(fā)布Qwen/QwQ-32B-Preview;
- 2024年12月19日, Google發(fā)布 Gemini 2.0 Flash Thinking;
- 2025年1月20日,DeepSeek發(fā)布R1系列模型;
- 2025年1月20日,Kimi發(fā)布k1.5多模態(tài)思考模型。
在這眾多的模型之中,DeepSeek不僅率先實(shí)現(xiàn)了媲美OpenAI-o1模型的效果,更是將推理模型的成本壓縮到了極低——基于R1模型的DeepSeek Reasoner每百萬輸入token成本為0.55美元(4元/百萬tokens),每百萬輸出token成本為2.19美元(16元/百萬tokens),相比OpenAI-o1的每百萬輸入token成本為15美元、每百萬輸出token成本為60美元,下降了約95%;
DeepSeek R1 API價(jià)格,圖源:DeepSeek
DeepSeek R1模型與o1類推理模型輸入輸出價(jià)格對(duì)比,圖源:DeepSeek
這樣的價(jià)格策略,不僅為中小企業(yè)帶來了希望,還傳遞出一個(gè)信號(hào):AI不再是少數(shù)精英企業(yè)的專屬,它將成為全球各行各業(yè)的基礎(chǔ)工具。
低價(jià)還只是其次。更重要的是,DeepSeek R1系列模型,是開源的?!伴_源”這兩個(gè)字對(duì)很多人來說,是“技術(shù)自由”的代名詞,OpenAI創(chuàng)立的初衷,也是作為一家非營利組織,希望“以最有可能造福全人類的方式推進(jìn)數(shù)字智能發(fā)展,而不受產(chǎn)生財(cái)務(wù)回報(bào)需求的限制?!比欢捎谏虡I(yè)化壓力、對(duì)模型濫用的擔(dān)憂、構(gòu)筑技術(shù)壁壘、內(nèi)部價(jià)值觀沖突等等的原因,OpenAI在GPT-3發(fā)布之后限制了對(duì)模型的訪問權(quán)限,僅通過API提供服務(wù),在GPT-4發(fā)布之后更是隱藏了其訓(xùn)練數(shù)據(jù)和模型權(quán)重、完全走向了“閉源”。這極大背離了其創(chuàng)立時(shí)的初衷,也讓人們?cè)谔剿鰽GI的道路上多了些波折。
盡管OpenAI的做法有其自己的考量,但人類需要開源。
開源不僅是技術(shù)上的“開放”,更是對(duì)商業(yè)和產(chǎn)業(yè)鏈上下游合作的重新定義。它為更多創(chuàng)新提供了誕生的土壤,也讓全球的開發(fā)者可以共同參與進(jìn)來,探索人工智能的下一個(gè)邊界。而DeepSeek開源的選擇,正是這種“美美與共”精神的體現(xiàn)。
換句話說,DeepSeek-R1的低價(jià)和開源戰(zhàn)略,實(shí)際上在構(gòu)建一個(gè)更加開放和包容的AI生態(tài)。而在DeepSeek等開源模型廠商的共同努力下,一個(gè)全人類共同為AGI奮斗的時(shí)代,似乎離我們不遠(yuǎn)了。
作者|王藝?? 編輯|趙健
本文由人人都是產(chǎn)品經(jīng)理作者【甲子光年】,微信公眾號(hào):【甲子光年】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!