DeepSeek推翻兩座大山
DeepSeek的崛起不僅讓英偉達(dá)市值暴跌,也讓Meta和OpenAI等大廠感受到了前所未有的壓力。本文將深入探討DeepSeek的技術(shù)突破、市場影響以及其背后的開源理念,分析其如何在短時(shí)間內(nèi)成為全球AI研究者的首選模型,并探討其對(duì)國內(nèi)外大模型競爭格局的影響。
DeepSeek的壓力,終于還是傳遞到了黃仁勛身上。
北京時(shí)間1月27日晚,英偉達(dá)美股股價(jià)盤前暴跌近11%,按目前市值34928億美元計(jì)算,英偉達(dá)市值恐將縮水超3500億美元。
DeepSeek所掀起的低成本大模型訓(xùn)練策略,正在讓資本市場懷疑,即當(dāng)用相對(duì)較少的算力也能實(shí)現(xiàn)不輸于OpenAI的模型性能表現(xiàn)時(shí),英偉達(dá)所代表的高端算力芯片是否正迎來新的泡沫?
這股擔(dān)憂情緒正進(jìn)一步助推著DeepSeek的熱度攀升。趁著DeepSeek R1新模型發(fā)布檔口,短短一周時(shí)間,到1月27日,DeepSeek應(yīng)用就拿下了美區(qū)App Store和中國區(qū)App Store免費(fèi)榜的雙料第一。
值得一提的是,這是首次有AI助手類產(chǎn)品超越OpenAI的ChatGPT,且登頂美區(qū)App Store。
爆火的用戶體驗(yàn)場面,直接導(dǎo)致DeepSeek在兩天之內(nèi)接連出現(xiàn)服務(wù)宕機(jī)現(xiàn)象。繼1月26日出現(xiàn)短時(shí)閃崩后,1月27日,DeepSeek再次短暫出現(xiàn)網(wǎng)頁/API不可用的服務(wù)提示。官方回應(yīng)稱,其可能和服務(wù)維護(hù)、請求限制等因素有關(guān)。
新模型DeepSeek R1,無疑是引發(fā)這場圍繞DeepSeek的全球用戶大討論的直接導(dǎo)火索。1月20日,DeepSeek正式發(fā)布了性能比肩OpenAI o1完整版的R1。
在數(shù)據(jù)越多、效果越好的Scaling Law(模型規(guī)模定律)觸達(dá)瓶頸之下,去年9月份,OpenAI對(duì)外發(fā)布了新推理模型o1,后者采用了RL(強(qiáng)化學(xué)習(xí))的新訓(xùn)練方式,被行業(yè)視為是大模型領(lǐng)域的一次“范式轉(zhuǎn)移”。
但直到DeepSeek R1發(fā)布之前,國內(nèi)一眾大模型廠商均尚未推出能夠?qū)?biāo)OpenAI o1的模型。DeepSeek成了第一個(gè)攻破OpenAI技術(shù)黑匣子的玩家。
更重要的是,相比OpenAI在模型上的閉源,以及o1模型付費(fèi)使用限制,DeepSeek R1不僅開源,而且還免費(fèi)供全球用戶無限調(diào)用。
R1的出現(xiàn),除了打破旗艦開源模型只能有科技大廠來推動(dòng)的行業(yè)傳統(tǒng)共識(shí)之外,還打破了業(yè)內(nèi)在去年形成的另一條共識(shí),即通用大模型,正越來越成為一場大廠間的資本比拼游戲。DeepSeek用不到OpenAI十分之一的資源,就做出了性能堪比o1的R1。
DeepSeek攜一眾用戶帶來的沖擊,已經(jīng)讓一些大廠坐不住了。
首當(dāng)其沖的是Meta。一貫被行業(yè)視為“大模型開源之王”的Meta,內(nèi)部被曝出開始擔(dān)心起還未發(fā)布的Llama 4,在性能上可能無法趕上DeepSeek R1。
被拿來全面對(duì)標(biāo)的OpenAI,也開始感受到壓力。OpenAI CEO奧特曼不僅通過發(fā)布首個(gè)智能體Operator搶熱度,還開始對(duì)外劇透起即將上線的o3-mini新消息。
可以預(yù)見的是,DeepSeek掀起的行業(yè)地震,波及的將不只是國外公司,國內(nèi)大廠也難逃例外。
01
作為一款開源模型,DeepSeek R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上的性能,號(hào)稱可以比肩OpenAI o1模型正式版。
在AIME 2024數(shù)學(xué)基準(zhǔn)測試中,DeepSeek R1得分率為79.8%,OpenAI o1的得分率為79.2%;在MATH-500基準(zhǔn)測試中,DeepSeek R1得分率為97.3%,OpenAI o1的得分率為96.4%。
同為推理模型,DeepSeek R1不同于OpenAI o1的技術(shù)關(guān)鍵點(diǎn),在于其創(chuàng)新的訓(xùn)練方法,如在數(shù)據(jù)訓(xùn)練環(huán)節(jié)使用的R1-Zero路線,直接將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于基礎(chǔ)模型,而無需依賴監(jiān)督微調(diào)(SFT)和已標(biāo)注數(shù)據(jù)。
此前,OpenAI的數(shù)據(jù)訓(xùn)練非常依賴人工干預(yù),旗下數(shù)據(jù)團(tuán)隊(duì)甚至被建設(shè)成為不同水平的層級(jí),數(shù)據(jù)量大、標(biāo)注要求簡單明確的淺層數(shù)據(jù),交給肯尼亞等廉價(jià)外包勞工,高等級(jí)的數(shù)據(jù)則交給更高素質(zhì)標(biāo)記人員,不少都是訓(xùn)練有素的高校博士。
DeepSeek R1的直接強(qiáng)化學(xué)習(xí)路線,就像讓一個(gè)天才兒童在沒有任何范例和指導(dǎo)的情況下,純粹通過不斷嘗試和獲得反饋來學(xué)習(xí)解題。
Perplexity公司CEO阿拉文·斯里尼瓦斯評(píng)價(jià)道:“需求是發(fā)明之母。因?yàn)镈eepSeek必須找到解決辦法,最終它們創(chuàng)造出了更高效的技術(shù)?!?/p>
除此之外,在獲取高質(zhì)量數(shù)據(jù)方面,DeepSeek也有所創(chuàng)新。
根據(jù)DeepSeek官方技術(shù)文檔,R1模型使用數(shù)據(jù)蒸餾技術(shù)(Distillation)生成的高質(zhì)量數(shù)據(jù),提升了訓(xùn)練效率。數(shù)據(jù)蒸餾指的是通過一系列算法和策略,將原始的、復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作,從而得到更為精煉、有用的數(shù)據(jù)。
這也是DeepSeek能夠憑借更小參數(shù)量,就實(shí)現(xiàn)比肩OpenAI o1模型性能的一大關(guān)鍵。人工智能專家丁磊博士告訴字母榜(ID:wujicaijing),模型參數(shù)量大小與最終模型呈現(xiàn)的效果之間,兩者“投入產(chǎn)出并不成正比,而是非線性的……數(shù)據(jù)多只是一個(gè)定性,更重要的是考驗(yàn)團(tuán)隊(duì)數(shù)據(jù)清洗的能力,否則隨著數(shù)據(jù)增多,數(shù)據(jù)干擾也將隨之變大?!?/p>
更重要的是,DeepSeek是在用不到十分之一的資源基礎(chǔ)上,取得的上述成績。
去年12月底發(fā)布的DeepSeek-V3開源基礎(chǔ)模型,性能對(duì)標(biāo)GPT-4o,但官方介紹的訓(xùn)練成本只有2048塊英偉達(dá)H800,總花費(fèi)約557.6萬美元。
作為對(duì)比,GPT-4o模型的訓(xùn)練成本約為1億美元,占用英偉達(dá)GPU量級(jí)在萬塊以上,且是比H800性能更強(qiáng)的H100。
當(dāng)時(shí),前OpenAI聯(lián)創(chuàng)、特斯拉自動(dòng)駕駛負(fù)責(zé)人安德烈·卡帕西就發(fā)文表示,DeepSeek-V3級(jí)別的能力,通常需要接近16000顆GPU的集群。
目前,DeepSeek官方尚未公布訓(xùn)練推理模型R1的完整成本,但官方公布了其API定價(jià),R1每百萬輸入tokens在1元-4元人民幣,每百萬輸出tokens為16元人民幣。作為對(duì)比,OpenAI o1的運(yùn)行成本約為前者的30倍。
這樣的表現(xiàn)也引發(fā)Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)評(píng)價(jià)道,中國人工智能公司DeepSeek的AI大模型性能大致與美國最好的模型相當(dāng)?!斑^去十年來,美國可能一直在人工智能競賽中領(lǐng)先于中國,但DeepSeek的AI大模型發(fā)布可能會(huì)‘改變一切’?!?/p>
a16z合伙人、AI大模型Mistral董事會(huì)成員 Anjney Midha更是發(fā)文說道,從斯坦福到麻省理工,DeepSeek R1幾乎一夜之間就成了美國頂尖大學(xué)研究人員的首選模型。
包括斯坦福大學(xué)計(jì)算機(jī)科學(xué)系客座教授吳恩達(dá)、微軟董事長兼CEO薩提亞·納德拉等大佬在內(nèi),也都開始關(guān)注起這款來自中國的新模型。
事實(shí)上,這并非DeepSeek第一次出圈。在宣布組建團(tuán)隊(duì)自研大模型以來,DeepSeek曾兩度引發(fā)熱議,只不過,之前更多局限在國內(nèi)。
2023年4月,千億量化私募巨頭幻方量化發(fā)布公告,稱將集中資源和力量,投身人工智能技術(shù),成立新的獨(dú)立研究組織,探索AGI(通用人工智能)。
一個(gè)月后的2023年5月,該組織被命名為“深度求索”,并發(fā)布了首款模型DeepSeek V1。當(dāng)時(shí),《財(cái)經(jīng)十一人》報(bào)道稱,國內(nèi)擁有超過1萬枚GPU的企業(yè)不超過5家。而DeepSeek就是其中之一,并由此開始得到外界關(guān)注。
及至2024年5月,DeepSeek再次借助大模型價(jià)格戰(zhàn)一躍成名。當(dāng)時(shí),DeepSeek發(fā)布了DeepSeek V2開源模型,并在行業(yè)內(nèi)率先降價(jià),將推理成本降到每百萬token僅1塊錢,約等于GPT-4 Turbo的七十分之一。
隨后,字節(jié)、騰訊、百度、阿里等大廠紛紛降價(jià)跟進(jìn)。中國大模型價(jià)格戰(zhàn)由此揭幕。
02
DeepSeek R1的出現(xiàn),進(jìn)一步向外界證明著,在大模型,尤其是通用大模型方面,創(chuàng)業(yè)公司依然有機(jī)會(huì)。
1月初,零一萬物創(chuàng)始人李開復(fù)對(duì)外正式表態(tài),自己將退出對(duì)AGI的追尋,未來公司主攻中小參數(shù)的行業(yè)模型?!皬纳虡I(yè)角度考慮,我們認(rèn)為只有大公司能繼續(xù)做超大模型?!崩铋_復(fù)說道。
投資人們比李開復(fù)更激進(jìn)。從2023年開始,作為金沙江創(chuàng)投主管合伙人的朱嘯虎,便覺得大模型在摧毀創(chuàng)業(yè),因?yàn)槟P汀⑺懔蛿?shù)據(jù)等三大支柱都向大廠集中,看不到創(chuàng)業(yè)公司的機(jī)會(huì),且直接在大模型上做應(yīng)用護(hù)城河太低,多次提醒創(chuàng)業(yè)者不要迷信通用大模型。
遠(yuǎn)望資本程浩更是直接認(rèn)為中國版的ChatGPT,只會(huì)在5家公司里產(chǎn)生:BAT+字節(jié)+華為。在程浩看來,創(chuàng)業(yè)者只有在具有先發(fā)優(yōu)勢的情況下,才有可能跑贏大廠。
正是因?yàn)楫?dāng)初谷歌等國外大廠并不看好OpenAI的大語言模型路線,才讓ChatGPT借助先發(fā)勢能跑了出來。但是,當(dāng)下研發(fā)大模型已經(jīng)成為中國科技大廠的共識(shí),甚至百度、阿里推出產(chǎn)品的動(dòng)作,比創(chuàng)業(yè)公司還快。
但在接受暗涌采訪中,DeepSeek創(chuàng)始人梁文鋒在回應(yīng)與大廠競爭中曾說道,“大廠肯定有優(yōu)勢,但如果不能很快應(yīng)用,大廠也不一定能持續(xù)堅(jiān)持,因?yàn)樗枰吹浇Y(jié)果。頭部的創(chuàng)業(yè)公司也有技術(shù)做得很扎實(shí)的,但和老的一波AI創(chuàng)業(yè)公司一樣,都要面對(duì)商業(yè)化難題?!?/p>
背靠千億量化基金的DeepSeek,在免去資金的后顧之憂外,選擇了一條頗顯理想主義的路徑,即只做模型研究,不考慮商業(yè)變現(xiàn),且大膽啟動(dòng)年輕人。
在DeepSeek的150左右團(tuán)隊(duì)中,大多是一幫Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,以及一些畢業(yè)才幾年的年輕人。
這是梁文鋒有意選擇的結(jié)果,也是DeepSeek能夠搶在大廠前面推出R1模型的秘訣之一,“如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的。但如果看長遠(yuǎn),經(jīng)驗(yàn)就沒那么重要,基礎(chǔ)能力、創(chuàng)造性、熱愛等更重要。”梁文鋒解釋道。
這也使得DeepSeek成了中國大模型創(chuàng)業(yè)公司中,唯一一家只做基礎(chǔ)模型、暫不考慮商業(yè)化的公司,還要加上一條,即有能力繼續(xù)開源旗艦?zāi)P偷墓尽?/p>
截至目前,DeepSeek R1已經(jīng)成為開源社區(qū)Hugging Face上下載量最高的大模型之一,下載量超過10萬次。
此前,國內(nèi)以百度創(chuàng)始人李彥宏為代表的一派,堅(jiān)決認(rèn)為開源路線打不過閉源路線,且缺乏商業(yè)化支撐的開源模型,會(huì)在往后的競爭中差距越拉越大。
但起碼從目前來看,DeepSeek R1的出現(xiàn),證明靠開源路線依然能夠追上大模型頭部玩家的腳步,且創(chuàng)業(yè)公司依然有能力推動(dòng)開源生態(tài)發(fā)展。
Meta AI首席科學(xué)家楊立昆(Yann LeCun)在評(píng)價(jià)中就提到,“給那些看到DeepSeek的表現(xiàn)后,覺得‘中國在AI方面正在超越美國’的人,你們的解讀是錯(cuò)的。正確的解讀應(yīng)該是,‘開源模型正在超越專有模型’。”
在去年DeepSeek v3發(fā)布后,梁文鋒就曾對(duì)外表示,公司未來不會(huì)像OpenAI一樣選擇從開源走向閉源,“我們認(rèn)為先有一個(gè)強(qiáng)大的技術(shù)生態(tài)更重要。”
畢竟,OpenAI的經(jīng)驗(yàn)起碼說明了,在顛覆性的技術(shù)面前,閉源難以形成足夠的護(hù)城河,更無法阻止被別人趕超?!八晕覀儼褍r(jià)值沉淀在團(tuán)隊(duì)上,我們的同事在這個(gè)過程中得到成長,積累很多know-how,形成可以創(chuàng)新的組織和文化,就是我們的護(hù)城河?!?/p>
2020年發(fā)布GPT-3時(shí),OpenAI曾詳細(xì)公開了模型訓(xùn)練的所有技術(shù)細(xì)節(jié)。中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長文繼榮認(rèn)為,國內(nèi)很多大模型其實(shí)都有GPT-3的影子。
但隨著OpenAI在GPT-4上一改開源策略,逐漸走向封閉,一些國產(chǎn)大模型就此失去了可供復(fù)制的追趕路徑。
如今,DeepSeek攜開源R1的到來,無疑將給國內(nèi)外大模型玩家在對(duì)標(biāo)o1的推理模型研發(fā)方面,創(chuàng)建起一條新的借鑒思路。
03
DeepSeek在大模型領(lǐng)域掀起的這場蝴蝶效應(yīng),已經(jīng)開始影響到部分大廠。
有Meta員工在硅谷匿名八卦分享平臺(tái)Blind上發(fā)布消息稱,Meta的生成式AI部門正因DeepSeek處于恐慌中,甚至爆料稱尚未發(fā)布的新一代開源模型Llama 4,在基準(zhǔn)測試中已經(jīng)落后于DeepSeek。
在外媒的進(jìn)一步報(bào)道中,Meta生成式AI團(tuán)隊(duì)和基礎(chǔ)設(shè)施團(tuán)隊(duì),正在組建4個(gè)作戰(zhàn)小分隊(duì)來像素級(jí)剖析DeepSeek,有的試圖搞清楚DeepSeek是如何降低訓(xùn)練和運(yùn)行成本的,有的負(fù)責(zé)研究DeepSeek可能使用了哪些數(shù)據(jù)來訓(xùn)練模型,有的則考慮基于DeepSeek模型的屬性重組Meta模型的新技術(shù)。
與此同時(shí),為了鼓舞士氣,作為Meta創(chuàng)始人的扎克伯格,更是放出2025年繼續(xù)擴(kuò)大AI投資的新消息,稱2025年圍繞AI的整體支出將達(dá)到600億-650億美元,相比去年的380億-400億美元,增長了超過70%,從而構(gòu)建起一個(gè)擁有130萬塊GPU的超級(jí)計(jì)算機(jī)集群。
除了跟Meta搶開源之王的名頭外,DeepSeek正在從OpenAI手里搶走客戶。
在比OpenAI便宜30倍的API價(jià)格誘惑力之下,一些初創(chuàng)公司正在改換門庭。企業(yè)級(jí)AI代理開發(fā)商SuperFocus的聯(lián)合創(chuàng)始人Steve Hsu認(rèn)為,DeepSeek的性能與為SuperFocus大部分生成式AI功能提供支持的OpenAI旗艦?zāi)P虶PT-4相似甚至更好?!癝uperFocus可能會(huì)在未來幾周轉(zhuǎn)向DeepSeek,因?yàn)镈eepSeek可以免費(fèi)下載、在自家服務(wù)器上存儲(chǔ)和運(yùn)行,并將增加銷售產(chǎn)品的利潤率。”
成為更多公司的模型底座,這也是梁文鋒規(guī)劃中DeepSeek最想占據(jù)的定位。在梁文鋒看來,DeepSeek未來可以只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新,然后其他公司在DeepSeek的基礎(chǔ)上構(gòu)建To B、To C的業(yè)務(wù)。”如果能形成完整的產(chǎn)業(yè)上下游,我們就沒必要自己做應(yīng)用?!绷何匿h說道。
國內(nèi),對(duì)DeepSeek的研究也在同步進(jìn)行。有報(bào)道稱,字節(jié)跳動(dòng)、阿里通義以及智譜、Kimi等團(tuán)隊(duì),都在積極研究DeepSeek,字節(jié)跳動(dòng)甚至可能在考慮與DeepSeek展開研究合作。
在這些公司之前,雷軍更是先人一步挖起了DeepSeek的墻角。去年12月,第一財(cái)經(jīng)爆料稱,雷軍疑似開出千萬年薪親自挖來“95后天才少女”羅福莉,后者是DeepSeek-V2開源模型的關(guān)鍵開發(fā)者。未來,羅福莉或?qū)⒐┞氂谛∶譇I實(shí)驗(yàn)室,領(lǐng)導(dǎo)小米大模型團(tuán)隊(duì)。
挖人之外,國內(nèi)更激烈的競爭或?qū)⑼瑯訃@API展開,“去年國內(nèi)有一批創(chuàng)業(yè)公司和中小企業(yè),因?yàn)镺penAI斷供轉(zhuǎn)向了國內(nèi)大模型公司,現(xiàn)在DeepSeek很有可能成為收復(fù)OpenAI失地的那個(gè)野蠻人。”恒業(yè)資本創(chuàng)始人合伙人江一預(yù)測道。
壓力傳導(dǎo)到了這些國內(nèi)大模型公司身上。如果它們不能快速將模型效果跟進(jìn)到R1級(jí)別,客戶就難免用腳投票。
撰文:趙晉杰 編輯:王靖
本文由人人都是產(chǎn)品經(jīng)理作者【字母榜】,微信公眾號(hào):【字母榜】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!