?DeepSeek 爆火背后,必須看清的3大趨勢(shì)
從對(duì)資本市場(chǎng)的影響,到行業(yè)爭(zhēng)相部署,再到技術(shù)的創(chuàng)新應(yīng)用,本文將深入解讀DeepSeek的崛起背后的力量,為大家呈現(xiàn)一個(gè)全新的AI時(shí)代的圖景。
春節(jié)前夕,DeepSeek-R1模型公布開(kāi)源,下載量迅速登上了免費(fèi)榜榜首。隨后,引起了美國(guó)資本市場(chǎng)的大波動(dòng),算力巨頭英偉達(dá)出現(xiàn)了股價(jià)暴跌17%的罕見(jiàn)跌幅……
開(kāi)源后的DeepSeek到底對(duì)資本、科技產(chǎn)生了何種影響?是什么讓其具有這么大的能量?我們?nèi)绾螕肀eepSeek帶來(lái)的新AI時(shí)代?繼DeepSeek之后,AI將有什么新的趨勢(shì)?
這篇文章,將由清華大學(xué)計(jì)算機(jī)博士、阿里云MVP(人工智能領(lǐng)域最有價(jià)值專家)陳旸為我們一一解讀上述問(wèn)題。
一、DeepSeek的影響力
1. 對(duì)手惶恐,資本青睞
2025年1月20日,DeepSeek-R1模型正式公布;1月26日在中國(guó)區(qū)、美國(guó)區(qū)蘋(píng)果App Store中的免費(fèi)榜上同時(shí)沖到了第一名。
隨后,美國(guó)資本市場(chǎng)出現(xiàn)大幅波動(dòng),標(biāo)準(zhǔn)普爾500指數(shù)在10天內(nèi)跌幅接近10%。英偉達(dá)股票在1月27日當(dāng)天暴跌了17%,美股主要科技公司(英偉達(dá)、微軟、Meta、亞馬遜等)市值共計(jì)蒸發(fā)上萬(wàn)億美元。
在DeepSeek-R1出現(xiàn)前,算力是大模型訓(xùn)練的關(guān)鍵因素,美國(guó)限制中國(guó)使用英偉達(dá)的顯卡,因此大家普遍會(huì)認(rèn)為美國(guó)在AI大模型的領(lǐng)先優(yōu)勢(shì)是“斷層式”的,這也是美國(guó)對(duì)華科技限制采取“小院高墻”戰(zhàn)略的底層邏輯。
DeepSeek用少量的顯卡訓(xùn)練出了與其媲美的模型,相當(dāng)于打破了美國(guó)對(duì)華在人工智能領(lǐng)域的戰(zhàn)略限制。
就連OpenAI的CEO山姆奧特曼也重新思考了OpenAI的開(kāi)源戰(zhàn)略,迅速推出了o3-mini模型,在使用中開(kāi)放了思考推理過(guò)程。
在這之前,OpenAI并不是完全開(kāi)源的,我們只能使用o1模型,現(xiàn)在我們也可以使用其o3模型進(jìn)行更深入的思考。
通過(guò)OpenAI o3 mini與DeepSeek R1的使用對(duì)比,可以發(fā)現(xiàn)DeepSeek-R1的思考時(shí)間更長(zhǎng),思考邏輯更完整,推理結(jié)果更好。
同時(shí),DeepSeek會(huì)將推理過(guò)程完整地展現(xiàn)出來(lái),而OpenAI以前不會(huì)展示思考的過(guò)程,而思考的過(guò)程其實(shí)非常有價(jià)值的。
今年1月,美國(guó)宣布“星際之門(mén)”計(jì)劃,軟銀向OpenAI投資400億美元,用于OpenAI對(duì)星際之門(mén)的承諾,投后估值達(dá)3000億美元;而具有對(duì)標(biāo)OpenAI能力的DeepSeek,同樣受到國(guó)內(nèi)近百家資本的青睞,對(duì)其表達(dá)了投資意向,可以預(yù)見(jiàn)DeepSeek的估值將會(huì)上到一個(gè)新的高度。
2. DeepSeek開(kāi)源,行業(yè)爭(zhēng)相部署
在DeepSeek宣布開(kāi)源R1之后,各個(gè)行業(yè)都開(kāi)始集成或部署DeepSeek的相關(guān)模型。
國(guó)內(nèi)的華為云、百度智能云、阿里云、騰訊云、京東云、火山引擎以及三大運(yùn)營(yíng)商等云平臺(tái)都相繼部署了DeepSeek的R1/V3等模型。
國(guó)外的亞馬遜、微軟、英偉達(dá)、AMD等平臺(tái)也快速地將DeepSeek R1/V3模型部署或集成到相關(guān)的產(chǎn)品和服務(wù)上。
在產(chǎn)業(yè)端,吉利、嵐圖、東風(fēng)、廣汽、智己、長(zhǎng)城、寶駿、零跑等車(chē)企也宣布與DeepSeek進(jìn)行融合,未來(lái)智駕上也可以體驗(yàn)到與DeepSeek的交互。
金融領(lǐng)域,國(guó)泰君安、國(guó)金證券、興業(yè)證券、廣發(fā)證券等證券機(jī)構(gòu)進(jìn)行了本地化部署和調(diào)試,應(yīng)用于行業(yè)研究、市場(chǎng)研判、風(fēng)險(xiǎn)管理、信息檢索、文檔處理等多種場(chǎng)景。
當(dāng)然,部署與開(kāi)發(fā)完成還需一定的測(cè)試過(guò)程,但也體現(xiàn)出各個(gè)行業(yè)不甘落后的狀態(tài),也說(shuō)明與先進(jìn)的大模型融合使用將是大勢(shì)所趨。
二、DeepSeek撕破了算力面紗
1. DeepSeek的完全版與蒸餾版
DeepSeek完全版的尺寸是671B,由于采用創(chuàng)新的MOE架構(gòu),在推理過(guò)程中激活少部分參數(shù),因此推理速度更快,所需訓(xùn)練資源更小。
DeepSeek蒸餾版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多個(gè)尺寸。它選了兩個(gè)開(kāi)源模型進(jìn)行訓(xùn)練,國(guó)內(nèi)是Qwen2.5,國(guó)外則選用了Llama,蒸餾模型更小更快,但能力相對(duì)弱一些。
對(duì)于性能要求不太高、GPU資源有限的企業(yè),蒸餾版是一個(gè)更優(yōu)選擇。因?yàn)橥耆嫘枰娘@存是496GB,而R1:1.5B只需要2G顯存、R1:7B也只需要8G顯存,最高的R1:70B蒸餾版也只需要128G顯存,大幅降低了私有化部署的資源要求。
2. 蒸餾技術(shù)路線,讓DeepSeek R1性能大幅提升
在R1模型之前,DeepSeek推出V3通用模型,在推理速度上相較歷史模型有了大幅提升。一度在大模型主流榜單中,位于開(kāi)源模型榜首,與世界最先進(jìn)的閉源模型也不分伯仲。
而V3模型最大的特點(diǎn)是訓(xùn)練成本極低,需要的顯卡數(shù)量和訓(xùn)練時(shí)間較于OpenAI只是一個(gè)零頭。
2024年12月,V3模型正式推出,但當(dāng)時(shí)并沒(méi)有太大波瀾。
而以V3模型為基礎(chǔ),通過(guò)新的獎(jiǎng)勵(lì)機(jī)制GRPO(group relative policy optimization),并使用規(guī)則類驗(yàn)證機(jī)制自動(dòng)對(duì)輸出進(jìn)行打分,在一個(gè)多月時(shí)間內(nèi)訓(xùn)練出了DeepSeek-R1模型,性能堪比GPT-o1模型,使R1迅速火出了圈。而R1模型與V3模型相比,其性能也有了大幅提升。
R1模型遵循MIT License(一種非常寬松的開(kāi)源許可協(xié)議,允許用戶自由地使用、修改、分發(fā)和商業(yè)化軟件或模型。),允許用戶通過(guò)蒸餾技術(shù)借助R1訓(xùn)練其他模型。
相比之下,Meta Llama的License相對(duì)嚴(yán)格,雖然LLaMA3是開(kāi)源的,但許可協(xié)議限制了商業(yè)用途和對(duì)模型的修改,比如新的模型如果使用LLaMA,需要名稱上帶有LLaMA標(biāo)識(shí)。
DeepSeek-R1上線API,對(duì)用戶開(kāi)放思維鏈輸出,因此一經(jīng)發(fā)布,多家企業(yè)就宣布融合DeepSeek-R1的各個(gè)版本,因?yàn)槭峭耆_(kāi)源的模型,在版權(quán)上就減少了不少風(fēng)險(xiǎn)。
在開(kāi)源DeepSeek-R1-Zero和DeepSeek-R1兩個(gè)660B模型的同時(shí),通過(guò)DeepSeek-R1的輸出,蒸餾了6個(gè)小模型,其中32B和70B模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo)0penAlo1-mini的效果.
3. DeepSeek的創(chuàng)新策略及產(chǎn)生的效果
① 創(chuàng)新策略
第一,引入MLA(Multi-Head Latent Attention)。
在“All you need is attention”的背景下,傳統(tǒng)的多頭注意力(MHA,Multi-Head Attention)的鍵值(KV)緩存機(jī)制事實(shí)上對(duì)計(jì)算效率形成了較大阻礙。縮小KV緩存(KV Cache)大小,并提高性能,在之前的模型架構(gòu)中并未得到很好的解決。
DeepSeek引入了MLA,一種通過(guò)低秩鍵值聯(lián)合壓縮的注意力機(jī)制,在顯著減小KV緩存的同時(shí)提高計(jì)算效率。低秩近似是快速矩陣計(jì)算的常用方法,在MLA之前很少用于大模型計(jì)算。
從大模型架構(gòu)的演進(jìn)情況來(lái)看,Prefill和KV Cache容量瓶頸的問(wèn)題正一步步被新的模型架構(gòu)攻克,巨大的KV Cache正逐漸成為歷史(實(shí)際上在2024年6月發(fā)布的DeepSeek-V2就已經(jīng)很好的降低了KV Cache的大小)。
第二,創(chuàng)新使用了DeepSeek-MoE架構(gòu)策略。
V3使用了61個(gè)MoE(Mix of Expert混合專家)block,雖然總參數(shù)量很大,但每次訓(xùn)練或推理時(shí)只激活了很少鏈路,訓(xùn)練成本大大降低,推理速度顯著提高。
第三,DeepSeek采用混合精度框架。
在不同的區(qū)塊里使用不同的精度來(lái)存儲(chǔ)數(shù)據(jù)。我們知道精度越高,內(nèi)存占用越多,運(yùn)算復(fù)雜度越大。
DeepSeek在一些不需要很高精度的模塊,使用很低的精度FP8儲(chǔ)存數(shù)據(jù),極大的降低了訓(xùn)練計(jì)算量。
② 創(chuàng)新策略帶來(lái)的效果
第一,計(jì)算速度快,成本低。
架構(gòu)設(shè)計(jì)方面:DeepSeek MoE架構(gòu)在推理時(shí)僅激活部分專家,避免了激活所有參數(shù)帶來(lái)的計(jì)算資源浪費(fèi);MLA架構(gòu)通過(guò)降秩KV矩陣,減少了顯存消耗。
訓(xùn)練策略方面:在訓(xùn)練過(guò)程中采用多token預(yù)測(cè)(MTP)目標(biāo),即在每個(gè)位置上預(yù)測(cè)多個(gè)未來(lái)token,增加了訓(xùn)練信號(hào)的密度,提高了數(shù)據(jù)效率。
在訓(xùn)練中,對(duì)于占據(jù)大量計(jì)算量的通用矩陣乘法(GEMM)操作,采用FP8精度執(zhí)行;同時(shí),通過(guò)細(xì)粒度量化策略和高精度累積過(guò)程,解決了低精度訓(xùn)練中出現(xiàn)的量化誤差問(wèn)題。
第二,推理能力強(qiáng)大。
強(qiáng)化學(xué)習(xí)驅(qū)動(dòng):DeepSeek-R1通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)顯著提升了推理能力。在數(shù)學(xué)、代碼和自然語(yǔ)言推理等任務(wù)上表現(xiàn)出色,性能與OpenAl的o1正式版相當(dāng)。
長(zhǎng)鏈推理(CoT)技術(shù):DeepSeek-R1采用長(zhǎng)鏈推理技術(shù),其思維鏈長(zhǎng)度可達(dá)數(shù)萬(wàn)字,能夠逐步分解復(fù)雜問(wèn)題,通過(guò)多步驟的邏輯推理來(lái)解決問(wèn)題。
三、如何高效使用DeepSeek?
1. DeepSeek的多種使用方式及其表現(xiàn)
第一種,直接訪問(wèn)DeepSeek官網(wǎng)。雖然免費(fèi),但由于訪問(wèn)量過(guò)大,表現(xiàn)極不穩(wěn)定。
第二種,在GitHub上下載cherry Studio(或者一些其它工具),使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不穩(wěn)定的情況。
第三種,使用Cherry Studio+第三方云廠商DeepSeek API做本地部署。使用第三方云廠商的DeepSeekAPI穩(wěn)定很多,相比官方API價(jià)格也便宜。
Cherry部署之后,除了DeepSeek,還可以使用OpenAI、月之暗面、智譜清言等API。
假設(shè)我們來(lái)解一道高考數(shù)學(xué)題:設(shè)集合A中的元素皆為無(wú)重復(fù)數(shù)字的三位正整數(shù),且元素中任意兩者之積皆為偶數(shù),求集合中元素個(gè)數(shù)的最大值是多少?
這是一個(gè)非常復(fù)雜、難度較大的問(wèn)題,如果采用通義千問(wèn)等通用大模型,大概率得不出正確答案,而DeepSeek通過(guò)分步驟的長(zhǎng)鏈深度思考,一步步給出了正確答案。
2. 簡(jiǎn)單應(yīng)用:DeepSeek+知識(shí)庫(kù)
以構(gòu)建投資研究框架為例,我們來(lái)展示用DeepSeek+知識(shí)庫(kù)的使用。
第一步,配置embedding模型。嵌入模型,把知識(shí)庫(kù)進(jìn)行向量化,并進(jìn)行快速檢索;選擇嵌入模型(可以使用硅基流動(dòng)),在Cherry Studio設(shè)置中,設(shè)置對(duì)應(yīng)的API Key。
第二步,整理知識(shí)庫(kù)。在Cherry studio的知識(shí)庫(kù)中,配置投研報(bào)告知識(shí)庫(kù),上傳相關(guān)投研報(bào)告(處理知識(shí)庫(kù)主要用到文字,所以知識(shí)庫(kù)支持PDF、PPT、Excel、word等多種文本文件)。完成后,你就在本地有了知識(shí)庫(kù)。
第三步,在智能對(duì)話助手中,選擇對(duì)應(yīng)的知識(shí)庫(kù)。
最后一步,針對(duì)知識(shí)庫(kù)進(jìn)行提問(wèn)??梢钥吹?,DeepSeek會(huì)進(jìn)行長(zhǎng)鏈思考并展現(xiàn)思考過(guò)程。
需要注意,雖然云廠商不會(huì)主動(dòng)收集你的數(shù)據(jù),但并不能100%保證數(shù)據(jù)安全,對(duì)于企業(yè)的敏感數(shù)據(jù)(如財(cái)務(wù)、營(yíng)銷數(shù)據(jù)),建議進(jìn)行本地私有化部署。
3. 復(fù)雜應(yīng)用:DeepSeek+Cursor
知識(shí)庫(kù)并不能完全展現(xiàn)DeepSeek的深度思考能力,借助于其它工具(如Cursor)可以完成更復(fù)雜的任務(wù),如物理世界的小球碰撞實(shí)驗(yàn)。
首先,我們?cè)贑ursor的【File->Preferences->Cursor Settings】中設(shè)置DeepSeek-r1和DeepSeek-v3模型。
然后,在openAI API Key中進(jìn)行設(shè)置(這里采用openAI的協(xié)議),可以使用自定義的模型。
設(shè)置好DeepSeek-r1和DeepSeek-v3模型之后,接下來(lái)就可以在Cursor中選擇該模型進(jìn)行編程。
我們看一個(gè)實(shí)際的例子:一個(gè)紅色的小球在三角區(qū)域內(nèi)運(yùn)動(dòng),碰到邊界就反彈,編寫(xiě)一個(gè)HTML網(wǎng)頁(yè)。
Cursor會(huì)新建一個(gè)工程,動(dòng)態(tài)展示編程結(jié)構(gòu)。而DeepSeek在長(zhǎng)鏈思考之后,編寫(xiě)出HTML代碼,但代碼運(yùn)行可能不符合要求,需要進(jìn)一步調(diào)整,調(diào)整的過(guò)程我們也只需發(fā)出語(yǔ)言(文字對(duì)話)指令。
調(diào)整過(guò)程如下:
基于之前的思考,幫我完善HTML。(動(dòng)作:DeepSeek思考并完善HTML代碼。效果:HTML樣式有了調(diào)整,但是小球還是會(huì)飛出三角區(qū)域,需要進(jìn)一步調(diào)整。)
小球彈了之后,彈出去了啊,幫我檢查代碼……
考慮小球的重力,以及三角區(qū)域的支撐力,小球的彈力進(jìn)行完善……
每次運(yùn)行,小球可以從隨機(jī)的任意方向拋出……
小球的彈力大一些……
最后到地面都垂直彈跳了,不是應(yīng)該還會(huì)滾動(dòng)么,就是有水平的速度……
下面增加一個(gè)刷新按鈕,可以重新執(zhí)行這個(gè)HTML……
中文顯示是亂碼,另外考慮到手機(jī)顯示,頁(yè)面需要做自適應(yīng)……
經(jīng)過(guò)多次調(diào)校,DeepSeek終于生成了符合我們要求的HTML代碼,并在Cursor工程中進(jìn)行效果演示。
通過(guò)上面的演示,我們發(fā)現(xiàn),即使不懂代碼,也可以通過(guò)DeepSeek來(lái)完成機(jī)器編程,獲得期望的效果。
4. 這一次,AI真的“智能”了
從AlphaGo與圍棋世界冠軍李世石大戰(zhàn)開(kāi)始,人工智能逐漸介入我們的生活。機(jī)器第一次能進(jìn)行自主思考,完成簡(jiǎn)單(其實(shí)戰(zhàn)勝世界冠軍這個(gè)任務(wù)并不簡(jiǎn)單)任務(wù)。
在發(fā)展中的人工智能也一度被我們吐槽為“人工智障”,但從OpenAI開(kāi)始,人工智能逐漸會(huì)處理一些復(fù)雜任務(wù)了,而DeepSeek展現(xiàn)出了超越普通人的長(zhǎng)思維鏈路,我們不得不感嘆:AI真的“智能”了。
可見(jiàn),在學(xué)習(xí)過(guò)程中,對(duì)于復(fù)雜任務(wù)的處理有一個(gè)逐漸成熟的過(guò)程,一切都可以從最簡(jiǎn)單的開(kāi)始。當(dāng)你具備了一些常見(jiàn)的思考、自我更新、自我迭代的能力,就可以完成一些更有價(jià)值的作品。
比如,如果你是一名投資分析師,會(huì)用哪種AI助手來(lái)輔助完成投研報(bào)告呢?如果用通用大模型(相當(dāng)于文科生)寫(xiě)報(bào)告,可能也會(huì)完成任務(wù),但顯然缺乏嚴(yán)謹(jǐn)?shù)倪壿嬐评磉^(guò)程。
因此可能帶來(lái)市場(chǎng)的盲目跟投或者瘋狂踩踏,而DeepSeek的R1模型的嚴(yán)謹(jǐn)推理過(guò)程,可以勝任你的助手了。
四、DeepSeek掀桌子打通了另一條路
1. 李飛飛50美金復(fù)刻R1模型
在R1及其蒸餾模型推出后,李飛飛團(tuán)隊(duì)用不到50美金的云計(jì)算費(fèi)用,成功訓(xùn)練出了一個(gè)名為s1的推理模型。該模型在數(shù)學(xué)和編碼能力中的表現(xiàn),與0penAI的o1和DeepSeek-R1等尖端推理模型不相上下。
s1模型的訓(xùn)練只用了1000個(gè)樣本數(shù)據(jù),具體過(guò)程是:使用Gemini對(duì)這1000個(gè)樣本完善推理過(guò)程,然后對(duì)Qwen模型進(jìn)行監(jiān)督微調(diào)。
消息出來(lái),在網(wǎng)絡(luò)上一度刷屏。但我們也要了解這個(gè)模型成功的背景:
其一,s1模型是站在巨人的肩膀上,在阿里Qwen和谷歌Gemini大模型進(jìn)一步訓(xùn)練得到的;
其二,成本之所以低,是因?yàn)橹皇褂昧?000個(gè)樣本(對(duì)于企業(yè)來(lái)說(shuō),1000個(gè)樣本可能足夠了,但對(duì)于訓(xùn)練完整的大模型是不可能的),通過(guò)26分鐘花費(fèi)50美金,達(dá)到了一個(gè)比較理想的推理效果(與o1相差不大)。
也就是說(shuō),在每個(gè)企業(yè)中,未來(lái)大家都有機(jī)會(huì)用1000個(gè)樣本經(jīng)過(guò)精細(xì)訓(xùn)練就可能達(dá)到類似效果。
如果稍微展開(kāi),可以發(fā)現(xiàn)s1模型背后有自己的獨(dú)特方法論:
首先,數(shù)據(jù)集的構(gòu)建有三個(gè)標(biāo)準(zhǔn)(難度、多樣性和質(zhì)量),從這三個(gè)標(biāo)準(zhǔn)出發(fā),挑選了1000個(gè)問(wèn)題及對(duì)應(yīng)的推理路徑。
S1的數(shù)據(jù)集包含了不同領(lǐng)域,如數(shù)學(xué)競(jìng)賽、物理競(jìng)賽,并且新增了兩個(gè)原創(chuàng)數(shù)據(jù)集;s1-prob和s1-teasers,分別涵蓋了概率問(wèn)題和定量交易面試中的難題。
其次,采用了預(yù)算強(qiáng)制技術(shù)。這是一種控制測(cè)試時(shí)計(jì)算的技術(shù),通過(guò)強(qiáng)制終止或延長(zhǎng)模型的思考過(guò)程(通過(guò)添加“wait”字符串),使模型有機(jī)會(huì)重新檢查答案,從而可能糾正錯(cuò)誤的推理步驟。
在預(yù)算強(qiáng)制技術(shù)下,有三個(gè)強(qiáng)制策略。
其一,設(shè)定思考時(shí)間限制:當(dāng)模型開(kāi)始處理一個(gè)問(wèn)題時(shí),首先為其設(shè)定了一個(gè)最大思考時(shí)間(以token數(shù)量衡量)。如果模型在這個(gè)時(shí)間內(nèi)完成了思考并準(zhǔn)備給出答案,則按照正常流程進(jìn)行。
其二,強(qiáng)制結(jié)束思考過(guò)程:如果模型生成的思考token超過(guò)了預(yù)設(shè)的最大值,系統(tǒng)會(huì)強(qiáng)行終止模型的思考過(guò)程。這通常是通過(guò)添加一個(gè)特殊的end-of-thinking token delimiter實(shí)現(xiàn)的,促使模型停止進(jìn)一步的推理,并轉(zhuǎn)向生成最終答案。
其三,鼓勵(lì)更深入的探索:如果希望模型花更多的時(shí)間來(lái)考慮一個(gè)問(wèn)題,可以抑制end-of-thinking token delimiter的生成,并在當(dāng)前的推理路徑后面追加“wait”字符串=>為了讓模型有機(jī)會(huì)重新評(píng)估其先前的推理步驟,可能會(huì)糾正一些快速但不準(zhǔn)確的回答。
2. 繼DeepSeek后的AI趨勢(shì)
趨勢(shì)一:小模型將成為主流(大模型蒸餾)。
通過(guò)蒸餾技術(shù)將大型模型的推理能力成功遷移到小型模型中,顯著提升了小型模型的性能(DeepSeek-R1-Distil-Qwen-7B在AIME 2024競(jìng)賽中擊敗了32B模型)。
趨勢(shì)二:使用合成數(shù)據(jù)進(jìn)行訓(xùn)練成為主流。
雖然蒸餾數(shù)據(jù)是公開(kāi)的秘密,但很多表現(xiàn)不是蒸餾能解釋的。比如v3的中文能力,很多用詞和表達(dá)方式非常接地氣,可能是用了數(shù)據(jù)合成方法做的預(yù)訓(xùn)練。
趨勢(shì)三:AI模型將自我迭代(強(qiáng)化學(xué)習(xí)新范式)。
讓模型自己出題自己做,自己檢查。
第一步:模型自己出題(比如100萬(wàn)道);
第二步,模型自己檢查對(duì)錯(cuò);
第三步,篩選驗(yàn)證對(duì)的內(nèi)容,將結(jié)果與思維鏈合成新的數(shù)據(jù)。
比如在100萬(wàn)道題目中,模型檢查后發(fā)現(xiàn)有1萬(wàn)道能驗(yàn)證是對(duì)的,那么解出這1萬(wàn)道題的思維鏈就成了新的訓(xùn)練數(shù)據(jù)。通過(guò)不斷迭代,探索出之前人類沒(méi)有探索到的地方(類似AlphaGo-Zero戰(zhàn)勝AlphaGo)。
分享嘉賓:陳旸,阿里云MVP,清華大學(xué)計(jì)算機(jī)博士。
本文來(lái)自嘉賓@陳旸 在量子教育的分享
本文由人人都是產(chǎn)品經(jīng)理作者【筆記俠】,微信公眾號(hào):【筆記俠】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!