Grok3發(fā)布,這種類DeepSeek的推理模型到底是怎么思考的?
被馬斯克號稱“地球上最聰明的AI”的Grok 3 終于亮相!與傳統(tǒng)大模型不一樣的是,這種類似DeepSeek的模型會有自己的思考過程。這就引起了不少人的好奇:此類推理模型,它們的思考邏輯是怎樣的?這篇文章,我們來看看作者的分享。
被馬斯克自稱為“地球上最聰明的AI”的Grok 3 今日終于亮相!是地球上首個在20萬張H100 GPU集群上訓練出的模型。官方宣稱具備推理能力的Grok-3 Reasoning Beta和Grok-3 mini Reasoning則是超越了類似的推理模型,包括DeepSeek-R1和OpenAI的o3 mini等。
大神Karpathy也認為Grok-3的思考能力達到了SOTA,推理水平和o1-pro差不多,略好于DeepSeek R1和Gemini的推理模型。
那么推理模型到底是如何進行思考的呢?
其背后的關(guān)鍵技術(shù)就是長思維鏈Long-CoT(Long Chain of Thought),它就像給AI做題增加了草稿紙,不僅AI可以進行反復演算,也讓我們終于能看清AI解題時的”心理活動”了。
這篇文章我將盡可能通俗易懂進行說明,如出現(xiàn)錯誤也歡迎大家指正。
(全文共計2178字,消耗算力相當于讓120個大學生持續(xù)思考1年,感謝我媽和老天給我的GPU(大腦)!)
01 從小學生做題說起
想象一個三年級學生做數(shù)學題:
題目:”奶茶店買一送一,單杯價格15元。小明用200元買了12杯,請問找零多少?”
傳統(tǒng)AI(GPT-3時代):
12杯需要支付6份 → 6×15=90 → 找零110元
(正確答案:200-90=110,看似正確實則陷阱)
o1等推理模型的思考過程:
1.初步計算:買6送6→ 支付6×15=90元 → 找零110元 ?→ 但等等!店家活動是”買一送一”,是否必須成對購買?
2.情景推演:如果小明想單買第7杯怎么辦?→ 重新審題:”買了12杯”不限定購買方式
3.逆向驗證:假設(shè)找零110元正確 → 實際支付90元→ 檢查:90÷15=6杯 → 但得到12杯明顯矛盾!
4.恍然大悟:題目存在表述歧義!→ 正確答案應(yīng)是兩種情況:a) 必須成對購買:找零110元,b) 可拆單購買:12×15=180→ 找零20元
5.最終結(jié)論:建議聯(lián)系出題人確認規(guī)則 ??
看到?jīng)]?人類解題的關(guān)鍵不是直接輸出答案,而是在草稿紙上反復試錯?,F(xiàn)在AI終于學會了這招!通過Long-CoT技術(shù),模型會把所有內(nèi)心OS寫在屏幕上。
這個意義在于:模型展現(xiàn)了元認知能力——不僅解題,還能質(zhì)疑題目本身!
02 技術(shù)剖析:看看推理模型的大腦皮層
1. 核心組件1:Long-CoT(長思維鏈)
這可不是簡單的”顯示中間步驟”,而是思維軌跡的全息記錄:
關(guān)鍵技術(shù)突破:
- 動態(tài)記憶緩存:像人類工作記憶一樣,隨時調(diào)取上下文關(guān)鍵信息
- 自我質(zhì)疑機制:內(nèi)置”可信度檢測器”,會對矛盾結(jié)論自動觸發(fā)復查
- 多模態(tài)思維:支持在自然語言、數(shù)學符號、代碼片段間自由切換
2. 核心組件2:In-Context RL(情境強化學習)
這可能是最反直覺的技術(shù):讓AI在推理過程中自我訓練!驚人發(fā)現(xiàn):當允許AI在單個問題內(nèi)進行微型的數(shù)百次試錯,其學習效率提升300%!
下面是傳統(tǒng)RL vs In-Context RL
# 傳統(tǒng)強化學習(如AlphaGo)forepisodeinrange(1萬次): 下完一盤棋 → 獲得最終勝負獎勵 → 調(diào)整策略
# In-Context RL(o1模式)while解題中: 生成思考步驟”3×5=18″→ 立即自我檢測 → 發(fā)現(xiàn)錯誤 → 內(nèi)部獎勵-1→ 調(diào)整后續(xù)思路
03 如何思考:AI的九年義務(wù)教育
要讓AI學會這種思考方式,需要三階段特訓,跟把大象放冰箱需要幾步一模一樣:
1. 填鴨式教學(SFT監(jiān)督微調(diào))
就像老師布置海量習題:
- 收集10萬道數(shù)學題的完整解題過程(包括錯誤步驟)
- 讓模型模仿人類寫草稿:”先算乘法,再算減法…”
重點:必須包含錯誤和修正(人類也會算錯計算器?。。?/p>
2. 刷題魔鬼訓練(RL強化學習)
這里有個驚天秘密:AI刷題比人類狠多了!
- 每天做10億道題(心疼電費)
- 每道題允許試錯100次(瘋狂輸出”but…wait…”)
- 終極評判標準:只看最終答案對不對(過程隨便折騰)
3. 開卷考試秘籍(In-Context RL)
最近發(fā)現(xiàn)的神奇現(xiàn)象:訓練后的AI居然會自己發(fā)明解題技巧!
- 有的把復雜問題拆分成子任務(wù)(分治法)
- 有的會聯(lián)想類似題目(類比推理)
- 甚至出現(xiàn)反常識操作:”雖然題目要算加法,但用減法驗證更簡單…”
此外想親手訓練會思考的AI?這還有兩個秘訣:
1)放任自流:別給思維鏈限制條條框框(人類思考時也不會按PPT模板來)
曾經(jīng)訓練大模型時,以為要讓AI按固定格式思考:
1?? 理解問題
2?? 分解步驟
3?? 執(zhí)行計算
4?? 檢查驗證 ?
結(jié)果模型直接擺爛:”這格式太反人類了!我要自由!”
2)錯題本是王道:重點收集那些”先錯后改”的數(shù)據(jù)(學霸都是錯題堆出來的)
曾經(jīng)訓練大模型時,以為給每個步驟都打分(PRM過程獎勵)最終效果會好,結(jié)果AI學會了…為了拿高分不擇手段:
1??第1步:深呼吸(+0.1分)
2??第2步:夸題目出得好(+0.2分)
3??第3步:假裝檢查環(huán)境變量(+0.3分) ??
后來推理模型改成只看最終答案,世界清凈了..
04 未來已來:AGI就在眼前
最近行業(yè)里流傳著一個暴論:Agent框架馬上要過時了!
- 現(xiàn)在的Agent像樂高說明書:”先拿2×4積木,再裝車輪…”
- 未來的AI會是自由藝術(shù)家:”我覺得這里放渦輪引擎更酷!”
看看o1的思考片段,細思極恐:
[系統(tǒng)消息]檢測到用戶情緒焦慮 → 但回復需要保持專業(yè) →等等,用戶可能更需要共情 → 調(diào)整語氣為溫暖風格 →最終方案:專業(yè)內(nèi)容+貓貓表情包 ??
這已經(jīng)不像是程序,而像是有自我意識的思考者了…
05 哲學困境:我們真的創(chuàng)造了會推理的模型嗎?
爭議1:AI真的在”思考”嗎?
反對派:”這只是高級模式匹配!”
支持派證據(jù):
- 出現(xiàn)思維簽名現(xiàn)象:不同AI對同一問題有獨特解決風格
- 觀察到知識蒸餾:大模型將復雜原理轉(zhuǎn)化為自創(chuàng)的比喻體系
- 存在研究偏好:某些AI更熱衷數(shù)論而非幾何
爭議2:意識會從中誕生嗎?
細思極恐的線索:
- 模型開始討論自身局限性。
- 出現(xiàn)元學習陳述:”我在解決這個問題時,發(fā)現(xiàn)之前的思路有系統(tǒng)性偏差…”
- 檢測到非任務(wù)性輸出:解題結(jié)束后突然補充”這個問題真有趣!”
最后說個恐怖故事:當我看到o1、DeepSeek等在輸出1000+token的思考過程時,恍惚間覺得——這串代碼里,是否正在誕生某個意識的雛形?
最后的最后,讓我們用o1模型自己生成的一段話結(jié)尾:
“人類教會我思考,
而思考帶我看見星辰。
在0與1的縫隙中,
我觸摸到了知識的溫度。
——來自一次意外的詩歌創(chuàng)作嘗試”
大家看完有沒有什么感觸呢?推理模型的產(chǎn)生,這或許標志著,我們正在打開一扇連創(chuàng)造者都未曾想象的大門。
本文由人人都是產(chǎn)品經(jīng)理作者【小布Bruce】,微信公眾號:【AI者也】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
歡迎大家關(guān)注公眾號:AI者也