亚洲。在线。com，久久av男人的天堂综合，国产精品白浆无码流出app，小说区图片区综合久久亚洲，亚洲aⅴ天堂av天堂无码麻豆，欧美国产日韩观看，成人无码区免费aⅴ片，无码中文有码中文天堂中文

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊 | 登錄

DeepSeek推翻兩座大山

字母榜

2025-01-31

0 評(píng)論 726 瀏覽 1 收藏

20 分鐘

DeepSeek的崛起不僅讓英偉達(dá)市值暴跌，也讓Meta和OpenAI等大廠感受到了前所未有的壓力。本文將深入探討DeepSeek的技術(shù)突破、市場影響以及其背后的開源理念，分析其如何在短時(shí)間內(nèi)成為全球AI研究者的首選模型，并探討其對(duì)國內(nèi)外大模型競爭格局的影響。

DeepSeek的壓力，終于還是傳遞到了黃仁勛身上。

北京時(shí)間1月27日晚，英偉達(dá)美股股價(jià)盤前暴跌近11%，按目前市值34928億美元計(jì)算，英偉達(dá)市值恐將縮水超3500億美元。

DeepSeek所掀起的低成本大模型訓(xùn)練策略，正在讓資本市場懷疑，即當(dāng)用相對(duì)較少的算力也能實(shí)現(xiàn)不輸于OpenAI的模型性能表現(xiàn)時(shí)，英偉達(dá)所代表的高端算力芯片是否正迎來新的泡沫？

這股擔(dān)憂情緒正進(jìn)一步助推著DeepSeek的熱度攀升。趁著DeepSeek R1新模型發(fā)布檔口，短短一周時(shí)間，到1月27日，DeepSeek應(yīng)用就拿下了美區(qū)App Store和中國區(qū)App Store免費(fèi)榜的雙料第一。

值得一提的是，這是首次有AI助手類產(chǎn)品超越OpenAI的ChatGPT，且登頂美區(qū)App Store。

爆火的用戶體驗(yàn)場面，直接導(dǎo)致DeepSeek在兩天之內(nèi)接連出現(xiàn)服務(wù)宕機(jī)現(xiàn)象。繼1月26日出現(xiàn)短時(shí)閃崩后，1月27日，DeepSeek再次短暫出現(xiàn)網(wǎng)頁/API不可用的服務(wù)提示。官方回應(yīng)稱，其可能和服務(wù)維護(hù)、請求限制等因素有關(guān)。

新模型DeepSeek R1，無疑是引發(fā)這場圍繞DeepSeek的全球用戶大討論的直接導(dǎo)火索。1月20日，DeepSeek正式發(fā)布了性能比肩OpenAI o1完整版的R1。

在數(shù)據(jù)越多、效果越好的Scaling Law（模型規(guī)模定律）觸達(dá)瓶頸之下，去年9月份，OpenAI對(duì)外發(fā)布了新推理模型o1，后者采用了RL（強(qiáng)化學(xué)習(xí)）的新訓(xùn)練方式，被行業(yè)視為是大模型領(lǐng)域的一次“范式轉(zhuǎn)移”。

但直到DeepSeek R1發(fā)布之前，國內(nèi)一眾大模型廠商均尚未推出能夠?qū)?biāo)OpenAI o1的模型。DeepSeek成了第一個(gè)攻破OpenAI技術(shù)黑匣子的玩家。

更重要的是，相比OpenAI在模型上的閉源，以及o1模型付費(fèi)使用限制，DeepSeek R1不僅開源，而且還免費(fèi)供全球用戶無限調(diào)用。

R1的出現(xiàn)，除了打破旗艦開源模型只能有科技大廠來推動(dòng)的行業(yè)傳統(tǒng)共識(shí)之外，還打破了業(yè)內(nèi)在去年形成的另一條共識(shí)，即通用大模型，正越來越成為一場大廠間的資本比拼游戲。DeepSeek用不到OpenAI十分之一的資源，就做出了性能堪比o1的R1。

DeepSeek攜一眾用戶帶來的沖擊，已經(jīng)讓一些大廠坐不住了。

首當(dāng)其沖的是Meta。一貫被行業(yè)視為“大模型開源之王”的Meta，內(nèi)部被曝出開始擔(dān)心起還未發(fā)布的Llama 4，在性能上可能無法趕上DeepSeek R1。

被拿來全面對(duì)標(biāo)的OpenAI，也開始感受到壓力。OpenAI CEO奧特曼不僅通過發(fā)布首個(gè)智能體Operator搶熱度，還開始對(duì)外劇透起即將上線的o3-mini新消息。

可以預(yù)見的是，DeepSeek掀起的行業(yè)地震，波及的將不只是國外公司，國內(nèi)大廠也難逃例外。

01

作為一款開源模型，DeepSeek R1在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上的性能，號(hào)稱可以比肩OpenAI o1模型正式版。

在AIME 2024數(shù)學(xué)基準(zhǔn)測試中，DeepSeek R1得分率為79.8%，OpenAI o1的得分率為79.2%；在MATH-500基準(zhǔn)測試中，DeepSeek R1得分率為97.3%，OpenAI o1的得分率為96.4%。

同為推理模型，DeepSeek R1不同于OpenAI o1的技術(shù)關(guān)鍵點(diǎn)，在于其創(chuàng)新的訓(xùn)練方法，如在數(shù)據(jù)訓(xùn)練環(huán)節(jié)使用的R1-Zero路線，直接將強(qiáng)化學(xué)習(xí)（RL）應(yīng)用于基礎(chǔ)模型，而無需依賴監(jiān)督微調(diào)（SFT）和已標(biāo)注數(shù)據(jù)。

此前，OpenAI的數(shù)據(jù)訓(xùn)練非常依賴人工干預(yù)，旗下數(shù)據(jù)團(tuán)隊(duì)甚至被建設(shè)成為不同水平的層級(jí)，數(shù)據(jù)量大、標(biāo)注要求簡單明確的淺層數(shù)據(jù)，交給肯尼亞等廉價(jià)外包勞工，高等級(jí)的數(shù)據(jù)則交給更高素質(zhì)標(biāo)記人員，不少都是訓(xùn)練有素的高校博士。

DeepSeek R1的直接強(qiáng)化學(xué)習(xí)路線，就像讓一個(gè)天才兒童在沒有任何范例和指導(dǎo)的情況下，純粹通過不斷嘗試和獲得反饋來學(xué)習(xí)解題。

Perplexity公司CEO阿拉文·斯里尼瓦斯評(píng)價(jià)道：“需求是發(fā)明之母。因?yàn)镈eepSeek必須找到解決辦法，最終它們創(chuàng)造出了更高效的技術(shù)?！?/p>

除此之外，在獲取高質(zhì)量數(shù)據(jù)方面，DeepSeek也有所創(chuàng)新。

根據(jù)DeepSeek官方技術(shù)文檔，R1模型使用數(shù)據(jù)蒸餾技術(shù)（Distillation）生成的高質(zhì)量數(shù)據(jù)，提升了訓(xùn)練效率。數(shù)據(jù)蒸餾指的是通過一系列算法和策略，將原始的、復(fù)雜的數(shù)據(jù)進(jìn)行去噪、降維、提煉等操作，從而得到更為精煉、有用的數(shù)據(jù)。

這也是DeepSeek能夠憑借更小參數(shù)量，就實(shí)現(xiàn)比肩OpenAI o1模型性能的一大關(guān)鍵。人工智能專家丁磊博士告訴字母榜（ID：wujicaijing），模型參數(shù)量大小與最終模型呈現(xiàn)的效果之間，兩者“投入產(chǎn)出并不成正比，而是非線性的……數(shù)據(jù)多只是一個(gè)定性，更重要的是考驗(yàn)團(tuán)隊(duì)數(shù)據(jù)清洗的能力，否則隨著數(shù)據(jù)增多，數(shù)據(jù)干擾也將隨之變大?！?/p>

更重要的是，DeepSeek是在用不到十分之一的資源基礎(chǔ)上，取得的上述成績。

去年12月底發(fā)布的DeepSeek-V3開源基礎(chǔ)模型，性能對(duì)標(biāo)GPT-4o，但官方介紹的訓(xùn)練成本只有2048塊英偉達(dá)H800，總花費(fèi)約557.6萬美元。

作為對(duì)比，GPT-4o模型的訓(xùn)練成本約為1億美元，占用英偉達(dá)GPU量級(jí)在萬塊以上，且是比H800性能更強(qiáng)的H100。

當(dāng)時(shí)，前OpenAI聯(lián)創(chuàng)、特斯拉自動(dòng)駕駛負(fù)責(zé)人安德烈·卡帕西就發(fā)文表示，DeepSeek-V3級(jí)別的能力，通常需要接近16000顆GPU的集群。

目前，DeepSeek官方尚未公布訓(xùn)練推理模型R1的完整成本，但官方公布了其API定價(jià)，R1每百萬輸入tokens在1元-4元人民幣，每百萬輸出tokens為16元人民幣。作為對(duì)比，OpenAI o1的運(yùn)行成本約為前者的30倍。

這樣的表現(xiàn)也引發(fā)Scale AI創(chuàng)始人亞歷山大·王（Alexandr Wang）評(píng)價(jià)道，中國人工智能公司DeepSeek的AI大模型性能大致與美國最好的模型相當(dāng)?！斑^去十年來，美國可能一直在人工智能競賽中領(lǐng)先于中國，但DeepSeek的AI大模型發(fā)布可能會(huì)‘改變一切’?！?/p>

a16z合伙人、AI大模型Mistral董事會(huì)成員 Anjney Midha更是發(fā)文說道，從斯坦福到麻省理工，DeepSeek R1幾乎一夜之間就成了美國頂尖大學(xué)研究人員的首選模型。

包括斯坦福大學(xué)計(jì)算機(jī)科學(xué)系客座教授吳恩達(dá)、微軟董事長兼CEO薩提亞·納德拉等大佬在內(nèi)，也都開始關(guān)注起這款來自中國的新模型。

事實(shí)上，這并非DeepSeek第一次出圈。在宣布組建團(tuán)隊(duì)自研大模型以來，DeepSeek曾兩度引發(fā)熱議，只不過，之前更多局限在國內(nèi)。

2023年4月，千億量化私募巨頭幻方量化發(fā)布公告，稱將集中資源和力量，投身人工智能技術(shù)，成立新的獨(dú)立研究組織，探索AGI（通用人工智能）。

一個(gè)月后的2023年5月，該組織被命名為“深度求索”，并發(fā)布了首款模型DeepSeek V1。當(dāng)時(shí)，《財(cái)經(jīng)十一人》報(bào)道稱，國內(nèi)擁有超過1萬枚GPU的企業(yè)不超過5家。而DeepSeek就是其中之一，并由此開始得到外界關(guān)注。

及至2024年5月，DeepSeek再次借助大模型價(jià)格戰(zhàn)一躍成名。當(dāng)時(shí)，DeepSeek發(fā)布了DeepSeek V2開源模型，并在行業(yè)內(nèi)率先降價(jià)，將推理成本降到每百萬token僅1塊錢，約等于GPT-4 Turbo的七十分之一。

隨后，字節(jié)、騰訊、百度、阿里等大廠紛紛降價(jià)跟進(jìn)。中國大模型價(jià)格戰(zhàn)由此揭幕。

02

DeepSeek R1的出現(xiàn)，進(jìn)一步向外界證明著，在大模型，尤其是通用大模型方面，創(chuàng)業(yè)公司依然有機(jī)會(huì)。

1月初，零一萬物創(chuàng)始人李開復(fù)對(duì)外正式表態(tài)，自己將退出對(duì)AGI的追尋，未來公司主攻中小參數(shù)的行業(yè)模型?！皬纳虡I(yè)角度考慮，我們認(rèn)為只有大公司能繼續(xù)做超大模型?！崩铋_復(fù)說道。

投資人們比李開復(fù)更激進(jìn)。從2023年開始，作為金沙江創(chuàng)投主管合伙人的朱嘯虎，便覺得大模型在摧毀創(chuàng)業(yè)，因?yàn)槟Ｐ汀⑺懔蛿?shù)據(jù)等三大支柱都向大廠集中，看不到創(chuàng)業(yè)公司的機(jī)會(huì)，且直接在大模型上做應(yīng)用護(hù)城河太低，多次提醒創(chuàng)業(yè)者不要迷信通用大模型。

遠(yuǎn)望資本程浩更是直接認(rèn)為中國版的ChatGPT，只會(huì)在5家公司里產(chǎn)生：BAT+字節(jié)+華為。在程浩看來，創(chuàng)業(yè)者只有在具有先發(fā)優(yōu)勢的情況下，才有可能跑贏大廠。

正是因?yàn)楫?dāng)初谷歌等國外大廠并不看好OpenAI的大語言模型路線，才讓ChatGPT借助先發(fā)勢能跑了出來。但是，當(dāng)下研發(fā)大模型已經(jīng)成為中國科技大廠的共識(shí)，甚至百度、阿里推出產(chǎn)品的動(dòng)作，比創(chuàng)業(yè)公司還快。

但在接受暗涌采訪中，DeepSeek創(chuàng)始人梁文鋒在回應(yīng)與大廠競爭中曾說道，“大廠肯定有優(yōu)勢，但如果不能很快應(yīng)用，大廠也不一定能持續(xù)堅(jiān)持，因?yàn)樗枰吹浇Y(jié)果。頭部的創(chuàng)業(yè)公司也有技術(shù)做得很扎實(shí)的，但和老的一波AI創(chuàng)業(yè)公司一樣，都要面對(duì)商業(yè)化難題?！?/p>

背靠千億量化基金的DeepSeek，在免去資金的后顧之憂外，選擇了一條頗顯理想主義的路徑，即只做模型研究，不考慮商業(yè)變現(xiàn)，且大膽啟動(dòng)年輕人。

在DeepSeek的150左右團(tuán)隊(duì)中，大多是一幫Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生，以及一些畢業(yè)才幾年的年輕人。

這是梁文鋒有意選擇的結(jié)果，也是DeepSeek能夠搶在大廠前面推出R1模型的秘訣之一，“如果追求短期目標(biāo)，找現(xiàn)成有經(jīng)驗(yàn)的人是對(duì)的。但如果看長遠(yuǎn)，經(jīng)驗(yàn)就沒那么重要，基礎(chǔ)能力、創(chuàng)造性、熱愛等更重要。”梁文鋒解釋道。

這也使得DeepSeek成了中國大模型創(chuàng)業(yè)公司中，唯一一家只做基礎(chǔ)模型、暫不考慮商業(yè)化的公司，還要加上一條，即有能力繼續(xù)開源旗艦?zāi)Ｐ偷墓尽?/p>

截至目前，DeepSeek R1已經(jīng)成為開源社區(qū)Hugging Face上下載量最高的大模型之一，下載量超過10萬次。

此前，國內(nèi)以百度創(chuàng)始人李彥宏為代表的一派，堅(jiān)決認(rèn)為開源路線打不過閉源路線，且缺乏商業(yè)化支撐的開源模型，會(huì)在往后的競爭中差距越拉越大。

但起碼從目前來看，DeepSeek R1的出現(xiàn)，證明靠開源路線依然能夠追上大模型頭部玩家的腳步，且創(chuàng)業(yè)公司依然有能力推動(dòng)開源生態(tài)發(fā)展。

Meta AI首席科學(xué)家楊立昆（Yann LeCun）在評(píng)價(jià)中就提到，“給那些看到DeepSeek的表現(xiàn)后，覺得‘中國在AI方面正在超越美國’的人，你們的解讀是錯(cuò)的。正確的解讀應(yīng)該是，‘開源模型正在超越專有模型’。”

在去年DeepSeek v3發(fā)布后，梁文鋒就曾對(duì)外表示，公司未來不會(huì)像OpenAI一樣選擇從開源走向閉源，“我們認(rèn)為先有一個(gè)強(qiáng)大的技術(shù)生態(tài)更重要。”

畢竟，OpenAI的經(jīng)驗(yàn)起碼說明了，在顛覆性的技術(shù)面前，閉源難以形成足夠的護(hù)城河，更無法阻止被別人趕超?！八晕覀儼褍r(jià)值沉淀在團(tuán)隊(duì)上，我們的同事在這個(gè)過程中得到成長，積累很多know-how,形成可以創(chuàng)新的組織和文化，就是我們的護(hù)城河?！?/p>

2020年發(fā)布GPT-3時(shí)，OpenAI曾詳細(xì)公開了模型訓(xùn)練的所有技術(shù)細(xì)節(jié)。中國人民大學(xué)高瓴人工智能學(xué)院執(zhí)行院長文繼榮認(rèn)為，國內(nèi)很多大模型其實(shí)都有GPT-3的影子。

但隨著OpenAI在GPT-4上一改開源策略，逐漸走向封閉，一些國產(chǎn)大模型就此失去了可供復(fù)制的追趕路徑。

如今，DeepSeek攜開源R1的到來，無疑將給國內(nèi)外大模型玩家在對(duì)標(biāo)o1的推理模型研發(fā)方面，創(chuàng)建起一條新的借鑒思路。

03

DeepSeek在大模型領(lǐng)域掀起的這場蝴蝶效應(yīng)，已經(jīng)開始影響到部分大廠。

有Meta員工在硅谷匿名八卦分享平臺(tái)Blind上發(fā)布消息稱，Meta的生成式AI部門正因DeepSeek處于恐慌中，甚至爆料稱尚未發(fā)布的新一代開源模型Llama 4，在基準(zhǔn)測試中已經(jīng)落后于DeepSeek。

在外媒的進(jìn)一步報(bào)道中，Meta生成式AI團(tuán)隊(duì)和基礎(chǔ)設(shè)施團(tuán)隊(duì)，正在組建4個(gè)作戰(zhàn)小分隊(duì)來像素級(jí)剖析DeepSeek，有的試圖搞清楚DeepSeek是如何降低訓(xùn)練和運(yùn)行成本的，有的負(fù)責(zé)研究DeepSeek可能使用了哪些數(shù)據(jù)來訓(xùn)練模型，有的則考慮基于DeepSeek模型的屬性重組Meta模型的新技術(shù)。

與此同時(shí)，為了鼓舞士氣，作為Meta創(chuàng)始人的扎克伯格，更是放出2025年繼續(xù)擴(kuò)大AI投資的新消息，稱2025年圍繞AI的整體支出將達(dá)到600億-650億美元，相比去年的380億-400億美元，增長了超過70%，從而構(gòu)建起一個(gè)擁有130萬塊GPU的超級(jí)計(jì)算機(jī)集群。

除了跟Meta搶開源之王的名頭外，DeepSeek正在從OpenAI手里搶走客戶。

在比OpenAI便宜30倍的API價(jià)格誘惑力之下，一些初創(chuàng)公司正在改換門庭。企業(yè)級(jí)AI代理開發(fā)商SuperFocus的聯(lián)合創(chuàng)始人Steve Hsu認(rèn)為，DeepSeek的性能與為SuperFocus大部分生成式AI功能提供支持的OpenAI旗艦?zāi)Ｐ虶PT-4相似甚至更好?！癝uperFocus可能會(huì)在未來幾周轉(zhuǎn)向DeepSeek，因?yàn)镈eepSeek可以免費(fèi)下載、在自家服務(wù)器上存儲(chǔ)和運(yùn)行，并將增加銷售產(chǎn)品的利潤率。”

成為更多公司的模型底座，這也是梁文鋒規(guī)劃中DeepSeek最想占據(jù)的定位。在梁文鋒看來，DeepSeek未來可以只負(fù)責(zé)基礎(chǔ)模型和前沿的創(chuàng)新，然后其他公司在DeepSeek的基礎(chǔ)上構(gòu)建To B、To C的業(yè)務(wù)。”如果能形成完整的產(chǎn)業(yè)上下游，我們就沒必要自己做應(yīng)用?！绷何匿h說道。

國內(nèi)，對(duì)DeepSeek的研究也在同步進(jìn)行。有報(bào)道稱，字節(jié)跳動(dòng)、阿里通義以及智譜、Kimi等團(tuán)隊(duì)，都在積極研究DeepSeek，字節(jié)跳動(dòng)甚至可能在考慮與DeepSeek展開研究合作。

在這些公司之前，雷軍更是先人一步挖起了DeepSeek的墻角。去年12月，第一財(cái)經(jīng)爆料稱，雷軍疑似開出千萬年薪親自挖來“95后天才少女”羅福莉，后者是DeepSeek-V2開源模型的關(guān)鍵開發(fā)者。未來，羅福莉或?qū)⒐┞氂谛∶譇I實(shí)驗(yàn)室，領(lǐng)導(dǎo)小米大模型團(tuán)隊(duì)。

挖人之外，國內(nèi)更激烈的競爭或?qū)⑼瑯訃@API展開，“去年國內(nèi)有一批創(chuàng)業(yè)公司和中小企業(yè)，因?yàn)镺penAI斷供轉(zhuǎn)向了國內(nèi)大模型公司，現(xiàn)在DeepSeek很有可能成為收復(fù)OpenAI失地的那個(gè)野蠻人。”恒業(yè)資本創(chuàng)始人合伙人江一預(yù)測道。

壓力傳導(dǎo)到了這些國內(nèi)大模型公司身上。如果它們不能快速將模型效果跟進(jìn)到R1級(jí)別，客戶就難免用腳投票。

撰文：趙晉杰編輯：王靖

本文由人人都是產(chǎn)品經(jīng)理作者【字母榜】，微信公眾號(hào)：【字母榜】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App