Deepseek新論文稀疏注意力機(jī)制NSA與Grok3
DeepSeek團(tuán)隊(duì)在推特上發(fā)布了一篇新的論文,是解決模型在處理長(zhǎng)上下文窗口的能力。馬斯克的Grok3模型也在前幾天發(fā)布了;這篇文章,我們就來(lái)看看作者對(duì)論文的分析,以及對(duì)幾個(gè)產(chǎn)品的分析與見(jiàn)解。
最近(2025 年 2 月)DeepSeek團(tuán)隊(duì)在推特上發(fā)布了一篇新的論文,這個(gè)論文解決的是模型在處理長(zhǎng)上下文窗口的能力。曾經(jīng)谷歌發(fā)布過(guò)一個(gè)論文叫做 《Attention is all you need 》這個(gè)Attention 叫做注意力機(jī)制,在大模型的處理中,是一個(gè)非常關(guān)鍵的技術(shù),就像你讀一本書(shū),你需要全都讀下來(lái),每個(gè)字都要看一遍,之前的注意力機(jī)制叫做 full attention 就是你需要關(guān)注到每個(gè)字和每個(gè)字之間的相互關(guān)系。但是這次deepseek 的NSA 原生稀疏注意力機(jī)制,它會(huì)想一些辦法去略讀,它不需要關(guān)注這篇文章所有詞之間的相關(guān)關(guān)系,而是只要把其中重要的一些,把它看到就好了。
下面讓我們仔細(xì)來(lái)看看這篇論文
一、論文的核心觀點(diǎn)
論文提出了一種原生稀疏注意力機(jī)制(NSA),它將算法創(chuàng)新與硬件對(duì)齊優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長(zhǎng)上下文模型。
1、NSA 采用動(dòng)態(tài)分層稀疏策略,結(jié)合粗粒度標(biāo)記壓縮和細(xì)粒度標(biāo)記選擇,以保持全局上下文意識(shí)和局部精度。這樣既有對(duì)全局的理解也能減少冗余的計(jì)算。
2、對(duì) GPU 的 Tensor Core 特性設(shè)計(jì)高效的計(jì)算內(nèi)核,讓NSA 在 64k 長(zhǎng)度序列的解碼、正向傳播和反向傳播方面相對(duì)于全注意力( full attention)實(shí)現(xiàn)了顯著的加速,驗(yàn)證了其在整個(gè)模型生命周期中的效率。
3、實(shí)現(xiàn)了端到端訓(xùn)練,在不犧牲模型性能的情況下減少了預(yù)訓(xùn)練的計(jì)算。實(shí)驗(yàn)表明,使用 NSA 預(yù)訓(xùn)練的模型在通用理解、長(zhǎng)上下文任務(wù)和基于指令的推理方面保持了或超過(guò)了全注意力( full attention)模型。同時(shí),大幅降低算力成本。
二、研究方法
NSA 的核心在于其動(dòng)態(tài)層次化的稀疏策略,具體包括以下幾個(gè)方面:
1、令牌壓縮(Token Compression):通過(guò)將連續(xù)的鍵(key)或值(value)序列聚合為塊級(jí)表示,減少計(jì)算負(fù)擔(dān)。壓縮后的鍵和值能夠捕獲整個(gè)塊的信息,從而實(shí)現(xiàn)粗粒度的語(yǔ)義信息捕獲。(簡(jiǎn)單來(lái)說(shuō)就是:它把所有的token都切成塊,每塊提煉出一些關(guān)鍵信息,相當(dāng)于做了一個(gè)摘要)
2、令牌選擇(Token Selection):在壓縮的基礎(chǔ)上,選擇性地保留一些關(guān)鍵的鍵和值,以保留重要的細(xì)粒度信息。這一過(guò)程通過(guò)塊級(jí)選擇策略實(shí)現(xiàn),即對(duì)鍵和值序列進(jìn)行空間連續(xù)的塊劃分,并根據(jù)塊的重要性分?jǐn)?shù)選擇最重要的塊。(簡(jiǎn)單來(lái)說(shuō)就是:選擇這些塊里面,這些關(guān)鍵信息里,一些重要的詞的意思。就像這些塊里面的內(nèi)容,我并不是都需要,所以我會(huì)選擇一些關(guān)鍵詞,或者是跳過(guò)一些不太重要的詞)
3、滑動(dòng)窗口(Sliding Window):為了處理局部上下文信息,NSA 引入了滑動(dòng)窗口機(jī)制,專門處理局部模式,使模型能夠更有效地學(xué)習(xí)全局和局部特征。(簡(jiǎn)單來(lái)說(shuō)就是:剛才切的這些塊之間可能還會(huì)有一些關(guān)聯(lián))
大概就是通過(guò)這樣一個(gè)算法,讓大模型產(chǎn)生一個(gè)稀疏注意力,這樣的話,它不需要關(guān)注全局所有詞之間的相關(guān)關(guān)系,而是只要把其中重要的一些找到就好了。
deepseek團(tuán)隊(duì)用這樣的方法去做了測(cè)評(píng),甚至評(píng)測(cè)出的結(jié)果甚至比全注意力( full attention)還要好,而且它的計(jì)算的能耗壓縮是非常顯著的,在這個(gè)全流程的過(guò)程當(dāng)中,節(jié)省的成本不只是一點(diǎn)半點(diǎn)
同時(shí)他們不但在算法上有優(yōu)化,還在硬件上也有優(yōu)化,硬件也能讓效能有所提升。當(dāng)然硬件也不是說(shuō)在英偉達(dá)的卡上面做優(yōu)化。
三、實(shí)驗(yàn)
1、實(shí)驗(yàn)設(shè)置
- 預(yù)訓(xùn)練:使用 27B 參數(shù)的 Transformer 模型,預(yù)訓(xùn)練 260B 個(gè) token。
- 長(zhǎng)文本適應(yīng):在 32k 長(zhǎng)度文本上進(jìn)行持續(xù)訓(xùn)練和監(jiān)督微調(diào) (SFT),以實(shí)現(xiàn)長(zhǎng)文本適應(yīng)。
- 基線模型:Full Attention 模型,以及其他稀疏注意力方法,例如 H2O、infLLM、Quest 和 Exact-Top。
2、評(píng)估指標(biāo)
- 通用語(yǔ)言評(píng)估 (例如,MMLU)
- 長(zhǎng)文本評(píng)估 (例如,LongBench)
- Chain-of-thought 推理評(píng)估 (例如,AIME)
3、實(shí)驗(yàn)結(jié)果
- NSA 在預(yù)訓(xùn)練過(guò)程中表現(xiàn)出穩(wěn)定的收斂性,并且在損失值上優(yōu)于全注意力模型。
- 通用評(píng)估:在多個(gè)基準(zhǔn)測(cè)試中,NSA 在知識(shí)、推理和編碼任務(wù)上均表現(xiàn)出色,甚至在某些指標(biāo)上超過(guò)了全注意力模型。例如,在 DROP 和 GSM8K 測(cè)試中,NSA 分別提高了 0.042 和 0.034 的準(zhǔn)確率。
- 長(zhǎng)文本評(píng)估:NSA 在 64k 上下文的 Needle-in-a-Haystack 測(cè)試中,NSA 實(shí)現(xiàn)了完美的檢索準(zhǔn)確率。在 LongBench 測(cè)試中,NSA 的平均得分超過(guò)了所有基線方法,包括全注意力模型。
- 推理評(píng)估:在 AIME 基準(zhǔn)測(cè)試中,NSA 在 8k 和 16k 序列長(zhǎng)度上均優(yōu)于全注意力模型,顯示出其在復(fù)雜推理任務(wù)中的優(yōu)勢(shì)。
- 效率分析:NSA 在訓(xùn)練和解碼速度上均優(yōu)于全注意力模型:訓(xùn)練速度:在 64k 序列長(zhǎng)度下,NSA 實(shí)現(xiàn)了高達(dá) 9.0× 的前向速度提升和 6.0× 的反向速度提升。解碼速度:由于減少了 KV 緩存的加載量,NSA 在解碼過(guò)程中實(shí)現(xiàn)了高達(dá) 11.6× 的速度提升。
四、關(guān)鍵結(jié)論
NSA 通過(guò)其層次化的稀疏注意力設(shè)計(jì),在保持全注意力模型性能的同時(shí),實(shí)現(xiàn)了顯著的計(jì)算效率提升。具體來(lái)說(shuō):
- 性能:NSA 在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)出色,尤其是在需要長(zhǎng)序列理解和復(fù)雜推理的任務(wù)中。
- 效率:NSA 在訓(xùn)練和推理過(guò)程中均實(shí)現(xiàn)了顯著的速度提升,特別是在處理長(zhǎng)序列時(shí),其優(yōu)勢(shì)更加明顯。
- 可訓(xùn)練性:NSA 支持端到端的訓(xùn)練,減少了預(yù)訓(xùn)練計(jì)算成本,同時(shí)保持了模型性能。
五、Grok3 是什么
Grok3是由埃隆·馬斯克旗下的xAI公司開(kāi)發(fā)的第三代大語(yǔ)言模型,于2025年2月17日正式發(fā)布。Grok3 目前有最大的算力集群,它是用20萬(wàn)塊H100來(lái)訓(xùn)練出來(lái)的大模型,它的進(jìn)展速度是非常快的,在非常的時(shí)間內(nèi),就提升到了鼻尖 OpenAI 01 03等等這些模型的水平,甚至在這個(gè)數(shù)學(xué),編程能力方面是有超越的。
但是 Grok3 在算力的消耗方面、成本方面都是是非常巨大的,是deepseek v1的 263倍。所以巨大的算力是Grok3的一個(gè)典型的特征,在發(fā)布會(huì)中,也提到了多模態(tài)的能力,也結(jié)合了應(yīng)用作了一些優(yōu)化,目前Grok3最大的這個(gè)模型還在訓(xùn)練中。接下來(lái)還會(huì)有更多的測(cè)評(píng)出來(lái)。
以下是其主要特點(diǎn)和功能:
1、訓(xùn)練與硬件
- 超強(qiáng)算力:Grok3的訓(xùn)練得益于xAI公司的Colossus超級(jí)計(jì)算機(jī),該系統(tǒng)配備了10萬(wàn)個(gè)NVIDIA H100 GPU,提供了超過(guò)2億個(gè)GPU小時(shí)的計(jì)算資源,計(jì)算能力是上一代Grok2的十倍。
- 合成數(shù)據(jù)訓(xùn)練:Grok3在合成數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練,能夠通過(guò)重讀數(shù)據(jù)來(lái)反思所犯的錯(cuò)誤,從而達(dá)到邏輯上的一致性。
2、核心功能
- 思維鏈推理能力:Grok3引入了“思維鏈”(Chain of Thought)推理機(jī)制,模仿人類的認(rèn)知過(guò)程,使其在面對(duì)復(fù)雜查詢時(shí)能夠以更連貫和有邏輯的方式反應(yīng)。
- 多模態(tài)能力:Grok3具備強(qiáng)大的多模態(tài)能力,能夠同時(shí)處理圖像、視頻和3D動(dòng)畫(huà)數(shù)據(jù),展示了其強(qiáng)大的創(chuàng)作能力。
- DeepSearch模式:該模式能夠搜索互聯(lián)網(wǎng)和X平臺(tái)(前Twitter)的內(nèi)容,用AI進(jìn)行深度研究,分析這些信息,并為用戶提供精確的搜索結(jié)果和詳細(xì)答案。
- Big Brain模式:此模式使用更高的計(jì)算資源和更深入的推理過(guò)程,旨在處理和解決更復(fù)雜的問(wèn)題。
3、性能表現(xiàn)
- 多項(xiàng)任務(wù)領(lǐng)先性能:在數(shù)學(xué)推理、科學(xué)邏輯推理和代碼編寫(xiě)等多個(gè)基準(zhǔn)測(cè)試中,Grok3超過(guò)了競(jìng)爭(zhēng)對(duì)手,如DeepSeek-v3、GPT-4o和Gemini-2 pro。
- 高分評(píng)測(cè):在LMSYS大模型競(jìng)技場(chǎng)中,Grok3以1400分的高分遙遙領(lǐng)先,超越了GPT-4、Claude 3.5 Sonnet和Gemini 2.0 Pro等主流模型。
Grok3以其強(qiáng)大的推理能力、多模態(tài)處理能力和卓越的性能表現(xiàn),展現(xiàn)了在人工智能領(lǐng)域的巨大潛力和創(chuàng)新。
六、DeepSeek VS Grok3
DeepSeek和Grok3在多個(gè)方面存在顯著差異。
- DeepSeek采用MoE(Mixture of Experts)架構(gòu),計(jì)算效率高,適合數(shù)學(xué)、代碼推理任務(wù),而Grok3采用擴(kuò)展的Transformer架構(gòu)并結(jié)合指令優(yōu)化,擅長(zhǎng)社交數(shù)據(jù)分析和多輪問(wèn)答。
- 在數(shù)學(xué)推理方面,Grok3在AIME 2025評(píng)測(cè)中取得最高分,表現(xiàn)優(yōu)于DeepSeek。
- DeepSeek完全開(kāi)源,支持企業(yè)私有化部署,適用于本地AI計(jì)算方案,而Grok3則深度集成了特斯拉生態(tài),如Optimus機(jī)器人和FSD自動(dòng)駕駛系統(tǒng)。
- 在應(yīng)用場(chǎng)景上,DeepSeek更適合企業(yè)級(jí)服務(wù)和本土化應(yīng)用,如微信AI搜索和政務(wù)系統(tǒng)流程優(yōu)化,而Grok3則在科研與復(fù)雜推理、創(chuàng)意編程和深度信息檢索方面表現(xiàn)出色。
此外,DeepSeek在中文語(yǔ)義理解準(zhǔn)確率上超過(guò)Grok3,而Grok3則在多模態(tài)處理方面更具優(yōu)勢(shì),支持圖像、視頻和3D建模分析。
兩個(gè)對(duì)比過(guò)后,Grok3靠大算力產(chǎn)生更好的智能,而deepseek 仍然在開(kāi)源這條路上探索,所以究竟哪個(gè)更好,我想每個(gè)人心中都會(huì)有自己的答案吧。
本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
- 目前還沒(méi)評(píng)論,等你發(fā)揮!