DeepSeek V3“小版本更新”背后,V3和R1正在融合成一個模型
本文深入探討了DeepSeek V3模型的一次重要小版本更新,詳細分析了其在推理能力、代碼生成、中文寫作及搜索能力等方面的顯著提升,同時揭示了V3與R1模型融合的戰(zhàn)略意義,以及這些改進對開發(fā)者社區(qū)和行業(yè)未來發(fā)展的潛在影響。
在R2和V4到來之前,DeepSeek先讓我們看到了“V3 Plus”。
3月24日,DeepSeek一聲不響的在Huggingface上發(fā)布了V3的“小版本”迭代“DeepSeek-V3-0324”。開發(fā)者社區(qū)再次一片嘗鮮與夸贊。
之后3月25日晚,官方發(fā)布了該版本的官方報告。在DeepSeek的報告里,給出了四個官方亮點指引,分別是推理能力、前端開發(fā)能力、中文寫作能力、中文搜索能力的強化。
乍看起來,這些能力提升都聚焦在用戶常見任務場景之上。這也的確是一次非常注重實用性的升級,雖名為“小版本”,V3-0324卻在多個關(guān)鍵能力上實現(xiàn)了顯著突破,尤其是代碼生成能力的提升令人印象深刻。用戶只需關(guān)閉深度思考模式,就能體驗這一新版本,而API接口和使用方式保持不變。
而仔細觀察這幾個提升的領(lǐng)域,會發(fā)現(xiàn)一個有意思的點:DeepSeek給V3做的提升,全都落在R1的優(yōu)勢能力范圍內(nèi)了啊。
據(jù)報告顯示,推理能力的提升主要體現(xiàn)在新版 V3 模型的百科知識(MMLU-Pro, GPQA)、數(shù)學(MATH-500, AIME 2024)和代碼任務(LiveCodeBench)表現(xiàn)均有提高,特別是在數(shù)學、代碼類相關(guān)評測集上取得了超過 GPT-4.5、Claude-Sonnet-3.7的得分成績。
過去,在DeepSeek的兩個模型中,R1是推理模型,而V3則更適合日常對話。如今V3系列也有了推理能力的強力升級,用戶可以更好地根據(jù)任務難度選擇合適的模型:復雜問題用R1,日常對話用新版V3。這種差異化策略讓算力資源與任務需求更匹配,避免了不必要的計算浪費。
在推理能力之上,幾項任務場景中,最引人注目的是模型的代碼穩(wěn)定性和準確性。繼Claude-Sonnet-3.7在前端開發(fā)能力上火爆出圈之后,大模型在這一場景的實用性被額外關(guān)注。在V3新版本技術(shù)報告出現(xiàn)之前,不少網(wǎng)友們就迫不及待地測出了V3-0324在前端開發(fā)場景下的能力飛躍。
有開發(fā)者報告生成800行代碼,字符蹦到“冒火星”,竟然無一錯誤。對開發(fā)者而言,這種體驗在遍地都是愛報錯的AI編程工具之下,顯得尤為突出。
還有用戶進一步測試表明,盡管還有差距,但DeepSeek-V3-0324在前端視覺設計上已經(jīng)接近了Claude這樣的頂級模型。
用戶只需提供簡單提示,就能生成時尚的數(shù)字營銷頁面,布局合理,視覺效果精美。這種實用性的提升對網(wǎng)頁設計師和前端開發(fā)者尤為重要,大大縮短了從創(chuàng)意到實現(xiàn)的時間。
與社區(qū)測試相呼應,DeepSeek官方在技術(shù)報告中也展示了模型的前端代碼能力。報告中展示了一個p5.js小球物理運動程序,包含可調(diào)整的物理參數(shù)和賽博朋克風格界面,不僅功能完整,還具有高度的美觀性和交互性。
更重要的是,這個不比Claude差的新版本,可以免費使用,據(jù)網(wǎng)友測算,付費API的價格更是便宜了15倍。
除了代碼能力,DeepSeek R1的寫作能力也一直被津津樂道。其細膩的文風雖然有時會陷入極繁主義的浮夸,但情節(jié)連貫性和特定風格下的表達能力很強,有短劇和小說從業(yè)者都曾對硅星人提到,已經(jīng)開始應用DeepSeek創(chuàng)作。
此次,新版本V3在中文能力也有明顯增強,特別是中長篇文本創(chuàng)作上質(zhì)量更高,結(jié)構(gòu)更完整,邏輯更嚴密,實用性也大大增強。
另外,在聯(lián)網(wǎng)搜索場景下,報告生成能力也有顯著提升。模型能夠從網(wǎng)絡信息中提取關(guān)鍵內(nèi)容,生成詳實準確的報告,并以清晰美觀的排版呈現(xiàn)。
在開源方面,DeepSeek也繼續(xù)保持了其一貫的透明度和友好性。作為小版本更新,私有化部署只需要更新checkpoint和tokenizer_config.json等少量文件。這意味著現(xiàn)有用戶升級成本極低,幾乎可以無縫遷移。據(jù)報告顯示,該模型參數(shù)約660B,略低于原先V3的671B,開源版本上下文長度為128K(網(wǎng)頁端、App和API提供64K上下文),依然采用MIT許可證,這使得開發(fā)者可以在各種場景下自由使用。
這些能力提升其實幅度不小,但DeepSeek沒有把它稱為V3.5、V3.7,而只是將它定義為一次V3小版本更新。
在行業(yè)版本迭代泛濫、概念炒作盛行的當下,通過低調(diào)務實的姿態(tài)贏得了更多開發(fā)者社區(qū)的尊重。雖然能力有顯著提升,但由于沒有大的技術(shù)路線突破,仍將其定位為小版本迭代,那么當DeepSeek真正發(fā)布R2時,那將是一次名副其實的重大升級,而非行業(yè)常見的“通貨膨脹式”命名。
這種對技術(shù)命名的誠實態(tài)度,也是外界格外期待R2的重要理由。
而這次更新最重要的地方還在于,DeepSeek的V3和R1出現(xiàn)后,如Anthropic等對手在嘗試用新方法超車,核心在于把推理模型和大語言模型融合,無論是產(chǎn)品上通過AI的自動調(diào)配來融合到一起,還是從模型層面就“合二為一”。
現(xiàn)在看來,DeepSeek此次更新也很直白的展示了自己接下來的路線,也是把V系列和R系列融合成一個新模型。
官方報告中明確指出,此次更新與之前的DeepSeek-V3使用同樣的base模型,僅改進了后訓練方法,并借鑒了DeepSeek-R1模型訓練過程中的強化學習技術(shù)。
這是純RL路線的再一次的驗證和公示,在對手們繼續(xù)閉源并使用“唯一混合模型”這樣的概念來吸引人的時候,它繼續(xù)通過開源為行業(yè)提供公開的高效迭代思路。DeepSeek這開源的仗還會繼續(xù)打下去,好戲還在后面。
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!