1000萬(wàn)上下文+2880億參數(shù)的Llama4,卻讓DeepSeek們松了一口氣
近期,Meta發(fā)布了備受矚目的Llama4系列開(kāi)源模型,包括Llama 4 Scout、Llama 4 Maverick和尚未正式發(fā)布的Llama 4 Behemoth。本文將深入剖析Llama4的技術(shù)亮點(diǎn)與行業(yè)影響,探討其在當(dāng)前大語(yǔ)言模型競(jìng)爭(zhēng)格局中的地位與意義。
Llama4 來(lái)了。
4月5日,Meta發(fā)布了外界期待許久的Llama4系列開(kāi)源模型,目前它包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。三種模型對(duì)應(yīng)不同的使用需求,簡(jiǎn)單來(lái)說(shuō):
Llama 4 Scout是可以在單張H100上跑的多模態(tài)MoE模型,
Llama 4 Maverick是擊敗了GPT-4o 和 Gemini 2.0,比DeepSeek v3小但編碼和推理能力匹配的“最佳模型”,
還有一個(gè)即將發(fā)布的、隱藏在后為所有Llama4系列提供能力的2880億活躍參數(shù)“巨獸”模型Llama 4 Behemoth。
根據(jù)它官方發(fā)布的介紹,此次Llama4有幾個(gè)重要的技術(shù)亮點(diǎn)。
- MoE架構(gòu):此次是Llama首次采用混合專(zhuān)家架構(gòu),任務(wù)執(zhí)行時(shí)僅激活部分參數(shù)(如Maverick總參數(shù)4000億,活躍參數(shù)170億),顯著提升訓(xùn)練和推理效率。
- 多模態(tài)融合:早期融合(Early Fusion)策略統(tǒng)一處理文本、圖像、視頻,突破傳統(tǒng)多模態(tài)模型的分階段處理限制。
- 超長(zhǎng)上下文:Scout支持1000萬(wàn)Token上下文窗口(約2000萬(wàn)字文本或20小時(shí)視頻),通過(guò)iRoPE架構(gòu)實(shí)現(xiàn)“短序列訓(xùn)練,長(zhǎng)序列泛化”。
- 部署上,Scout支持單張H100 GPU運(yùn)行(Int4量化后),Maverick需H100 DGX集群,Behemoth則夸張地使用了32000塊GPU訓(xùn)練。
- 后訓(xùn)練策略:采用“輕量級(jí)SFT → 在線RL → 輕量級(jí)DPO”流程,減少對(duì)齊約束,增強(qiáng)模型探索能力。 引入“自我批判式數(shù)據(jù)篩選”,利用早期模型Check point檢查點(diǎn)過(guò)濾低質(zhì)量訓(xùn)練樣本,提升最終性能。
由于Behemoth這個(gè)巨大參數(shù)的模型此次并沒(méi)有正式發(fā)布,另外兩個(gè)模型并沒(méi)有太過(guò)讓人震驚的突破——尤其在刷新評(píng)測(cè)榜單這件事已經(jīng)沒(méi)那么重要的今天,人們對(duì)Llama4的期待在于它的技術(shù)思路上是否有新玩意。
從目前官方給的說(shuō)明來(lái)看,它自己總結(jié)的幾個(gè)重要的創(chuàng)新在于:
原生多模態(tài)的預(yù)訓(xùn)練融合方法
Llama 4 模型設(shè)計(jì)為原生多模態(tài),通過(guò)早期融合(early fusion)無(wú)縫整合文本和視覺(jué)標(biāo)記到統(tǒng)一的模型主干中。早期融合是一大進(jìn)步,使 Llama 能夠聯(lián)合預(yù)訓(xùn)練大量未標(biāo)記的文本、圖像和視頻數(shù)據(jù)。Llama 還改進(jìn)了 Llama 4 的視覺(jué)編碼器——基于 MetaCLIP——但與凍結(jié)的 Llama 模型聯(lián)合訓(xùn)練,以更好地和LLM結(jié)合。
優(yōu)化MoE專(zhuān)家超參數(shù)設(shè)置的MetaP;
Llama 開(kāi)發(fā)了一種新訓(xùn)練技術(shù) MetaP,能夠可靠設(shè)置關(guān)鍵模型超參數(shù),如每層學(xué)習(xí)率和初始化規(guī)模。Llama 發(fā)現(xiàn)所選超參數(shù)在不同batch size、模型寬度、深度和訓(xùn)練token數(shù)中可以很好的匹配。Llama 4 通過(guò)在200種語(yǔ)言上預(yù)訓(xùn)練(包括超過(guò)100種每種超過(guò)10億token的語(yǔ)言),總體的多語(yǔ)言訓(xùn)練token比 Llama 3 多10倍。
對(duì)注意力機(jī)制做改進(jìn),從而突破上下文能力的iRoPE架構(gòu);
Llama 4 架構(gòu)的一個(gè)關(guān)鍵創(chuàng)新是使用了交錯(cuò)注意力層,且不使用位置嵌入(positional embeddings)。此外,我們還采用了推理時(shí)注意力溫度縮放( inference time temperature scaling of attention)來(lái)增強(qiáng)長(zhǎng)度和泛化。我們將這種架構(gòu)稱(chēng)為 iRoPE 架構(gòu),其中“i”代表“交錯(cuò)”注意力層,突出了支持“無(wú)限”上下文長(zhǎng)度的長(zhǎng)期目標(biāo),“RoPE”則指在大多數(shù)層中使用的旋轉(zhuǎn)位置嵌入。
SFT、RL和DPO使用搭配上的新配方
在 Llama 4 中,Llama 通過(guò)采用不同方法重構(gòu)了后訓(xùn)練流程:輕量級(jí)監(jiān)督微調(diào)(SFT) > 在線強(qiáng)化學(xué)習(xí)(RL) > 輕量級(jí)直接偏好優(yōu)化(DPO)。關(guān)鍵經(jīng)驗(yàn)是,SFT和DPO可能過(guò)度約束模型,限制在線RL階段的探索,導(dǎo)致推理、編碼和數(shù)學(xué)領(lǐng)域的次優(yōu)準(zhǔn)確性。
后訓(xùn)練一個(gè)擁有2萬(wàn)億參數(shù)的模型也是一大挑戰(zhàn),需要 Llama 徹底改造配方,從數(shù)據(jù)規(guī)模開(kāi)始。為最大化性能,Llama 不得不修剪95%的SFT數(shù)據(jù)(相比小型模型的50%),以實(shí)現(xiàn)質(zhì)量和效率的必要關(guān)注。
為2萬(wàn)億參數(shù)模型擴(kuò)展RL還需要 Llama 改造底層RL基礎(chǔ)設(shè)施,因其規(guī)模前所未有。Llama 優(yōu)化了MoE并行設(shè)計(jì)以提高速度,加快了迭代。Llama 開(kāi)發(fā)了一個(gè)完全異步的在線RL訓(xùn)練框架,增強(qiáng)了靈活性。與犧牲計(jì)算內(nèi)存以在內(nèi)存中堆疊所有模型的現(xiàn)有分布式訓(xùn)練框架相比,Llama 的新基礎(chǔ)設(shè)施支持將不同模型靈活分配到單獨(dú)GPU上,根據(jù)計(jì)算速度平衡多個(gè)模型的資源。這一創(chuàng)新使訓(xùn)練效率比前幾代提高了約10倍。
這些創(chuàng)新與大家對(duì)今天開(kāi)源模型競(jìng)賽的預(yù)期相比,可能會(huì)略微讓人失望。
原生多模態(tài)的做法基本依然是行業(yè)的常規(guī)操作——把其他模態(tài)與最強(qiáng)的語(yǔ)言模態(tài)在token層面上統(tǒng)一;MetaP背后強(qiáng)調(diào)的不同尺寸的高效轉(zhuǎn)化,讓人想到諸如面壁智能提出的“densing law”,如何在小一點(diǎn)的參數(shù)上做實(shí)驗(yàn),預(yù)測(cè)出更大參數(shù)的表現(xiàn);對(duì)注意力的改進(jìn)也在過(guò)去幾個(gè)月有諸多嘗試,無(wú)論是月之暗面的MoBA,DeepSeek的NSA還是MiniMax-01對(duì)Lighting Attention的激進(jìn)的融合,似乎Meta的嘗試并沒(méi)有比這些帶來(lái)更徹底的效果;而在SFT,RL和DPO的“煉丹”上,也反而讓DeepSeek R1的更純粹的RL方法顯得更簡(jiǎn)潔優(yōu)雅。
與Llama過(guò)往作為開(kāi)源執(zhí)旗者時(shí)相比,通過(guò)開(kāi)源給社區(qū)提供對(duì)抗閉源模型強(qiáng)大的新方法的意味少了很多,結(jié)合其他更徹底的開(kāi)源模型公布的各種技術(shù)來(lái)快速交出一個(gè)作品來(lái)先跟上領(lǐng)先者的意味更強(qiáng)了。這次的模型與此前Llama2和Llama3發(fā)布時(shí)的影響完全不同,它不是碾壓式領(lǐng)先的發(fā)布,也許之后的Behemoth才是主菜,這次只是開(kāi)胃菜。但目前看來(lái),Behemoth的最大亮點(diǎn)可能還是在它背后的算力資源,Meta表示,Behemoth使用FP8和32K GPU訓(xùn)練,實(shí)現(xiàn)了390 TFLOPs/GPU。
這些都在提示這一次Llama4發(fā)布的倉(cāng)促。這次Llama在行業(yè)對(duì)推理模型需求爆炸,對(duì)很看重編程能力的AI Agent類(lèi)產(chǎn)品興趣濃厚的時(shí)候,沒(méi)有先發(fā)布推理模型,而是繼續(xù)通過(guò)做大底座模型來(lái)提高推理和編程能力。在通過(guò)Scout強(qiáng)調(diào)部署便利的同時(shí),卻又沒(méi)有可以在本地運(yùn)行的尺寸的模型。
整體看來(lái),Llama4像是Meta先給自己一個(gè)“臺(tái)階”——在DeepSeek爆火之前,它堅(jiān)持不用MoE架構(gòu),這次算是完成了糾錯(cuò)。
另外有意思的是,在模型發(fā)布后,行業(yè)里活躍的幾家競(jìng)對(duì)也“討論”起了它的發(fā)布時(shí)間——這次發(fā)布選擇放在了周末。有人發(fā)現(xiàn)它在Github上最初提交的計(jì)劃時(shí)間是周一,以至于不少人懷疑Meta是為了避免下周被某個(gè)更強(qiáng)模型的發(fā)布蓋過(guò)風(fēng)頭。
有人猜測(cè)DeepSeek ,Qwen和DeepMind的更強(qiáng)模型都會(huì)在下周出現(xiàn),而Llama4目前的實(shí)力已經(jīng)無(wú)法與它們爭(zhēng)奪注意力。
“在周六發(fā)布有一個(gè)好處,至少?zèng)]人在當(dāng)天會(huì)想截胡你。”Gemini團(tuán)隊(duì)活躍的研究者Logan Kilpatrick調(diào)侃道。千問(wèn)的林俊旸則回復(fù)了一個(gè)“hahahah”。
在Llama3領(lǐng)先開(kāi)源競(jìng)爭(zhēng)的時(shí)候,你很難想象它的對(duì)手會(huì)如此戲虐地做出反應(yīng)。
從領(lǐng)先變回追趕者,Meta AI看來(lái)有得忙了。
作者|王兆洋
本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號(hào):【硅星人Pro】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!