Llama 2高調(diào)開源顛覆大模型圈!2萬億token訓練,打不過GPT3.5
就在最近,Meta宣布推出新一代開源大型語言模型Llama 2,此外,Llama 2還可供免費商用。那么,Llama 2的出現(xiàn)會對大型語言模型的市場格局帶來什么改變?Llama 2的誕生又經(jīng)歷了怎樣的過程?一起來看看作者的解讀。
一覺醒來,Meta直接丟了一顆重磅核彈:Llama 2!
繼LLaMA開源后,Meta聯(lián)手微軟高調(diào)開源Llama 2,一共有7B、13B、70B三個版本。
據(jù)介紹,Llama 2接受了2萬億個token訓練,上下文長度4k,是Llama 1的2倍。微調(diào)模型已在超100萬個人類標注中進行了訓練。
Llama 2的表現(xiàn)更是秒殺許多開源語言模型,在推理、編碼、能力和知識測試上取得了SOTA。
最最最重要的是,這次Llama 2不僅可以研究,甚至能免費商用?。▌澲攸c)
今年2月,Llama 1開源后,Meta收到了10萬多個訪問大型語言模型的請求。
沒想到,Llama的開放瞬間讓AI社區(qū)模型大爆發(fā),UC 伯克利的Vicuna、斯坦福Alpaca等各種系列「羊駝」蜂擁而出。
這次,Llama 2的開源直接向OpenAI和谷歌發(fā)起挑戰(zhàn)。
在OpenAI和谷歌獨占鰲頭下,Meta此舉想通過另辟蹊徑改變大模型AI之爭的格局。
LeCun表示,Llama 2免費商用將直接改變大型語言模型的市場格局。
一、一夜封神,但還不如GPT-3.5
Llama 2的橫空出世,沒想到,直接被一眾網(wǎng)友「封神」。
就連GPT-4,被推下了戰(zhàn)場。
但是,就客觀來講,Llama 2真的無所不能嗎?
英偉達科學家Jim Fan稱,Llama 2還沒有達到GPT-3.5的水平,主要是因為其代碼能力較弱。
關(guān)于Llama 2更多細節(jié),Jim Fan和做了一個太長不愛看版:
– Llama 2的訓練費用可能超過200萬美元。
Meta發(fā)布商業(yè)友好許可的模型,為社區(qū)提供了令人難以置信的服務。由于許可問題,大公司的AI研究員對Llama-1持謹慎態(tài)度,但現(xiàn)在我認為他們中的很多人都會加入進來,貢獻自己的力量。
– Meta團隊對4K提示進行了人類研究,以評估Llama-2的實用性。
他們使用「勝率」(win rate)作為比較模型的指標,與Vicuna基準類似。70B模型與GPT-3.5-0301大致持平,表現(xiàn)明顯強于Falcon、MPT和Vicuna。
與學術(shù)基準相比,我更相信真實的人類評級。
– Llama-2還沒有達到GPT-3.5的水平。
在HumanEval上,它還不如StarCoder或其他許多專門為編碼而設(shè)計的模型。盡管如此,我毫不懷疑Llama-2將因其開放的權(quán)重而得到顯著改善。
– Meta團隊在人工智能安全問題上不遺余力。
事實上,這篇論文幾乎有一半的篇幅都在談論安全護欄、紅隊和評估。
在之前的研究中,有用性和安全性之間非常難平衡。Meta通過訓練2個獨立的獎勵模型來緩解這一問題。這些模型還沒有開源,但對社區(qū)來說非常有價值。
– Llama-2將極大地推動多模態(tài)人工智能和機器人研究。
這些領(lǐng)域需要的不僅僅是黑盒子訪問API。到目前為止,研究人員必須將復雜的感官信號(視頻、音頻、三維感知)轉(zhuǎn)換為文本描述,然后再輸入到 LLM,這樣做既笨拙又會導致大量信息丟失。
而將感官模塊直接「嫁接」到強大的LLM主干上會更有效。
– 技術(shù)報告本身就是一部杰作。
GPT-4的技術(shù)報告只分享了很少的信息,而Llama-2則不同,它詳細介紹了整個recipe,包括模型細節(jié)、訓練階段、硬件、數(shù)據(jù)管線和標題過程。例如,論文對 RLHF 的影響進行了系統(tǒng)分析,并提供了漂亮的可視化效果。
二、Llama 2如何誕生?
Llama 2最新技術(shù)報告也同在今天發(fā)布,足足有70多頁。
GenAI首次以團隊名稱出現(xiàn)
針對模型訓練,與ChatGPT相同,Llama 2也是經(jīng)歷了預訓練(Pretraining)、微調(diào)(Fine-tuing)和人類反饋強化學習(RLHF)三個階段。
除了開源了Llama 2,Meta基于Llama 2微調(diào)了Llama 2-Chat模型。
在各大基準測試上,Llama 2在推理等方面表現(xiàn)相當出色。
接下來,具體看看Llama 2是如何誕生的吧。
1. 預訓練
為了創(chuàng)建新的Llama 2,Meta的研究人員首先采用了Touvron等人所使用的預訓練方法,應用了優(yōu)化的自回歸Transformer。
但是,為了進一步提高性能,Meta團隊做了一些改動。
具體來說,研究人員進行了更穩(wěn)健的數(shù)據(jù)清理,更新了數(shù)據(jù)組合,且訓練的標記總數(shù)增加了40%,上下文長度增加了一倍,還使用了GQA(Group Query Attention)來提高大型模型推理的可擴展性。
下表比較了Llama 2和Llama 1的屬性差異。
在預訓練數(shù)據(jù)方面,Meta的訓練語料庫包括公開來源的各種新數(shù)據(jù)組合,但并不包括來自Meta自家產(chǎn)品或服務中的數(shù)據(jù)。
另外,研究人員努力刪除了某些已知包含大量個人隱私信息的網(wǎng)站的數(shù)據(jù)信息。
Meta團隊在2萬億個token的數(shù)據(jù)上進行了訓練(如上表所示),這樣做可以很好地權(quán)衡性能和成本,并對最真實的數(shù)據(jù)源進行取樣,以增加知識和減少幻覺。
訓練細節(jié)方面,Meta團隊既有沿用也有創(chuàng)新。
研究人員沿用了Llama 1中的大部分預訓練設(shè)置和模型架構(gòu),使用標準的Transformer架構(gòu),以及RMSNorm進行預規(guī)范化,還用了SwiGLU激活函數(shù)和旋轉(zhuǎn)位置嵌入。
與Llama 1在結(jié)構(gòu)上的主要區(qū)別在于,增加了上下文長度和GQA(Group Query Attention)(如上表所示)。
下圖則展示了Llama 2的訓練損耗。
研究人員比較了Llama 2系列不同大小模型的訓練損耗分別是多少,Meta團隊發(fā)現(xiàn),在對2T數(shù)量的token進行預訓練后,模型依舊沒有出現(xiàn)任何飽和的跡象。
評估
接下來研究人員報告了Llama 1和Llama 2、MPT和Falcon模型在一些標準的學術(shù)基準上的性能測試結(jié)果。
在所有評估中,Meta團隊都應用了內(nèi)部評估庫,在內(nèi)部重現(xiàn)了MPT和Falcon模型的測試結(jié)果。
對于這些模型,研究人員總是在評估框架和任何公開報告的結(jié)果之間選取最高分進行比較。
在表3中,研究人員總結(jié)了LlaMa 2在一系列常用基準上的總體性能表現(xiàn)。以下是這些常用的基準大致介紹:
- 代碼:研究人員報告了模型在HumanEval和MBPP上的平均pass@1分數(shù)。
- 常識推理:研究人員人員報告了PIQA、SIQA、HellaSwag、WinoGrande、ARC easy and challenge、OpenBookQA和CommonsenseQA等項目的平均得分,還有CommonSenseQA的7-shot測試結(jié)果和所有其他基準的0-shot測試結(jié)果。
- 知識面:研究人員評估了NaturalQuestions和TriviaQA的5-shot成績,以及平均成績。
- 閱讀理解能力:研究人員報告了SQuAD、QuAC和BoolQ的0-shot平均成績。
- 數(shù)學能力:研究人員報告了GSM8K(8-shot)和MATH(4-shot)基準的平均成績,報告第一。
- 其它熱門的綜合基準:研究人員報告了MMLU(5-shot)、Big Bench Hard(BBH)(3-shot)和AGI Eval(3-5shot)的總體結(jié)果。其中,對于AGI Eval,研究人員只對英語相關(guān)的任務進行了評估并報告了平均值。
具體數(shù)據(jù)
從上表中可以看出,Llama 2要優(yōu)于Llama 1。尤其是和Llama 1-65B的模型相比,Llama 2-70B在MMLU和BBH上的成績分別提高了5分和8分。
除代碼基準外,Llama 2-7B和30B的模型在所有測試上都優(yōu)于同等規(guī)模的MPT模型。
就Falcon模型而言,在所有基準測試中,Llama 2-7B和34B的表現(xiàn)都要比Falcon-7B和40B的模型更好。
此外,Llama 2-70B模型也優(yōu)于所有開源模型。
除了和開源模型作比,Meta團隊還將Llama 2-70B的結(jié)果與閉源模型進行了比較。
如下表所示,Llama 2-70B在MMLU和GSM8K上的得分接近GPT-3.5,但在編碼基準上有明顯差距。
在幾乎所有的基準測試上,Llama 2-70B的結(jié)果都與PaLM 540B相當,甚至更好。
而Llama 2-70B與GPT-4和PaLM-2-L之間的性能差距仍然很大。
2. 微調(diào)
Llama 2-Chat是Meta團隊數(shù)月研究,并迭代應用了對齊技術(shù)(包括指令微調(diào)和RLHF)的成果,需要大量的計算和標注。
監(jiān)督微調(diào) (SFT):
第三方的SFT數(shù)據(jù)可以從許多不同來源獲得,但Meta團隊發(fā)現(xiàn),其中許多數(shù)據(jù)的多樣性和質(zhì)量都不夠,尤其是讓LLM與對話指令保持一致這一方面。
因此,研究人員首先重點收集了數(shù)千個高質(zhì)量的SFT數(shù)據(jù)示例,如上圖所示。通過撇開來自第三方數(shù)據(jù)集的數(shù)百萬個示例,使用質(zhì)量較高的示例,研究結(jié)果得到了明顯改善。
研究人員發(fā)現(xiàn),在總共收集到27540條標注后,SFT標注獲得了高質(zhì)量的結(jié)果。
為了驗證數(shù)據(jù)質(zhì)量,研究人員仔細檢查了一組180個示例,比較了人類提供的標注和模型通過人工檢查生成的樣本。
出乎意料的是,研究人員發(fā)現(xiàn)SFT模型生成的樣本輸出,往往能與人類標注者手寫的SFT數(shù)據(jù)相媲美。
這表明研究人員可以調(diào)整優(yōu)先級,將更多的注釋精力投入到基于偏好的RLHF標注中。
在監(jiān)督微調(diào)中,研究人員使用余弦學習率計劃(cosine learning rate schedule),初始學習率為2乘以10的負5次方,權(quán)重衰減為0.1,批量大小為64,序列長度為4096個標記。
在微調(diào)過程中,每個樣本包括一個提示和一個答案。
為確保模型序列長度得到適當填充,研究人員將訓練集中的所有提示和答案連接起來,并使用一個特殊的標記來分隔提示和答案片段。
研究人員利用自回歸目標,將來自用戶提示的標記損失歸零,因此,只對答案標記進行反向的傳播。
最后,研究人員對模型進行了2次微調(diào)。
人類反饋強化學習 (RLHF):
Meta團隊收集的數(shù)據(jù)代表了人類偏好的經(jīng)驗取樣,人類標注者可以根據(jù)這個來選擇他們更喜歡的2種模型輸出。
這種人類反饋隨后被用于訓練獎勵模型,該模型可學習人類標注者的偏好模式,然后自動做出偏好決定。
與其他方案相比,團隊選擇了二進制比較協(xié)議(binary comparison protocol),主要是因為它能讓研究人員最大限度地提高所收集提示的多樣性。
研究人員列出了用于獎勵建模的開源數(shù)據(jù),以及內(nèi)部收集的人類偏好數(shù)據(jù)。
請注意,二進制人類偏好比較包含共享相同提示的2個響應(選擇和不選)。每個示例都由一個prompt和一個回復組成,后者是獎勵模型的輸入。
研究人員報告了比較的次數(shù)、每次對話的平均回合數(shù)、每個示例、每個prompt和每個回復的平均標記數(shù)。
用于獎勵建模的人類偏好數(shù)據(jù)統(tǒng)計:
下表即是準確率方面的結(jié)果。
獎勵模型結(jié)果
Meta自己的獎勵模型在基于Llama 2-Chat收集的內(nèi)部測試集上表現(xiàn)最佳,其中有用性獎勵模型在元有用性(Mega Helpful)測試集上表現(xiàn)最佳。
同樣,安全性獎勵模型在元安全性(Mega Safety)測試集上表現(xiàn)最佳。
總體而言,Meta的獎勵模型優(yōu)于包括GPT-4在內(nèi)的所有模型。
有趣的是,盡管GPT-4沒有經(jīng)過直接訓練,也沒有專門的針對獎勵建模任務,但它的表現(xiàn)卻優(yōu)于其它模型。
在每一批用于獎勵建模的人類偏好標注中,研究人員都會拿出1000個例子作為測試集來評估模型。
研究人員將相應測試集的所有提示的集合分別稱為元有用性(Meta Helpful)和元安全性(Meta Safety)。
作為參考,研究人員還評估了其他公開的替代方案:基于FLAN-T5-xl的SteamSHP-XL、基于DeBERTa V3 Large的 Open Assistant的獎勵模型以及GPT4。
請注意,推理時與訓練時不同,所有獎勵模型都可以預測單個輸出的標量,而無需訪問其配對輸出。
當然,更多的數(shù)據(jù)和更大的模型通常會提高準確率,而Meta的模型目前似乎還沒有從訓練數(shù)據(jù)的學習中達到飽和。
如下圖所示。
更多有關(guān)RLHF的內(nèi)容請參看論文原文。
多輪一致性系統(tǒng)消息:
在對話設(shè)置中,有些指令應該適用于所有的對話場合,例如,簡明扼要地做出回應,或者扮演某個公眾人物等等。
當研究人員向Llama 2-Chat提供這樣的指令時,給出的回應應始終遵守該約束。
然而,最初的RLHF模型往往會在幾輪對話后忘記最初的指令,如下圖所示。
為了解決這些局限性,Meta團隊提出了「幽靈注意力」(GAtt),這是一種非常簡單的方法,利用微調(diào)數(shù)據(jù)幫助模型的注意力在多階段過程中保持集中。
應用了GAtt后,結(jié)果如下圖所示,我們可以看到,GAtt能在多個回合中實現(xiàn)對話控制。
下圖為應用了GAtt和沒有應用GAtt的對話注意力可視化圖。
研究人員考慮了整個網(wǎng)絡(luò)的最大激活度,并將相鄰的標記放在一起。
為了說明GAtt是如何在微調(diào)過程中幫助重塑注意力,上圖顯示了模型的最大注意力激活。每幅圖的左側(cè)都對應著系統(tǒng)信息。
我們可以看到,與未安裝GAtt的模型(左)相比,安裝了GAtt的模型(右)在對話的大部分時間里都能對系統(tǒng)信息保持較大的注意力激活。
但是,盡管GAtt很有用,但它目前的實現(xiàn)過程還很粗糙,對這項技術(shù)進行更多的開發(fā)和迭代才會使模型進一步受益。
RLHF的結(jié)果:
當然,評估LLM是一個具有挑戰(zhàn)性的開放性研究問題。人工評估雖然是一個不錯的標準,但會因各種人機交互考慮因素而變得復雜,而且并不總是可擴展的。
因此,為了在從RLHF-V1到V5的每次迭代中從多個模型中選出表現(xiàn)最佳的模型,Meta的研究人員首先觀察了最新獎勵模型的獎勵改進情況,以節(jié)約成本并提高迭代速度。
隨后,在通過人工評估對主要模型版本進行了驗證。
下圖是Llama 2-Chat的演變。
研究人員展示了經(jīng)過多次迭代微調(diào)后,Llama 2-Chat與ChatGPT對比勝率百分比的演變。
左邊的裁判是Meta的獎勵模型,可能會向著他們自己的模型,右圖的裁判則是GPT-4,其結(jié)果應該會更中立。
而就像上面提到的一樣,人工評估通常被認為是評判自然語言生成模型(包括對話模型)的黃金標準。
為了評估主要模型版本的質(zhì)量,Meta請人類評估員對它們的有用性和安全性進行了評分。
研究人員將Llama 2-Chat模型與開源模型(Falcon、MPT),以及閉源模型(ChatGPT) 和PaLM在超過4000個單輪和多輪的prompt上進行了比較。
對于ChatGPT,研究人員在各代中都使用了gpt-3.5-turbo-0301的模型。對于PaLM,則使用的是chat-bison-001模型
下圖即為評估結(jié)果——
可以看到,Llama 2-Chat模型在單匝和多匝提示上的表現(xiàn)都明顯優(yōu)于開源模型。
特別是,在60%的提示中,Llama 2-Chat 7B模型都優(yōu)于MPT-7B-chat。
而Llama 2-Chat 34B與同等大小的Vicuna-33B和Falcon 40B相比,總體勝率超過75%。
此外,最大的Llama 2-Chat模型與ChatGPT相比,70B版本的勝率為36%,平局率為31.5%。
在Meta研究人員的pompt集上,Llama 2-Chat 70B模型在很大程度上都優(yōu)于PaLM-bison的聊天模型。
三、商用限制:不超過7億用戶
Llama-2商業(yè)免費用,對Meta來說,還是首次。
不過,并非是絕對免費。
根據(jù)許可條款,Meta規(guī)定不能Llama-2的數(shù)據(jù)或輸出來改進任何其他 LLM,與OpenAI類似,但在OSS模型中并不常見。
另外,如果產(chǎn)品MAU在2023年6月超過7億用戶,必須申請?zhí)厥馍虡I(yè)許可。
除上述情況外,使用、復制、分發(fā)、拷貝、創(chuàng)作衍生作品和修改 Llama-2 都是免版稅的。
具體可參見:https://github.com/facebookresearch/llama/blob/main/LICENSE
四、強強聯(lián)手,微軟成人生贏家
要說最大的人生贏家,非微軟莫屬了。
一邊聯(lián)手OpenAI推出GPT-4加持的付費版Office,另一邊牽著Meta的手,歡迎Llama 2在Azure和Windows登臺。
今天,小扎還在Ins上發(fā)布了自己和納德拉合影。
再把上半年,納德拉和Sam Altman的合照拿出來,瞬間有種OpenAI遭到背刺的感覺。
再加上網(wǎng)友的配文:納德拉在開放式和封閉式Al之間,做出了令人驚訝和贊嘆的舉動。(是高手)
據(jù)Meta官博介紹,我們將與微軟的合作伙伴關(guān)系提升到一個新的水平,成為Llama 2的首選合作伙伴。
Llama 2在Azure人工智能模型庫中可用。使用微軟Azure的開發(fā)人員能夠使用它進行構(gòu)建,并利用云原生工具進行內(nèi)容過濾。
它還經(jīng)過優(yōu)化,可以在Windows上本地運行,為開發(fā)人員提供無縫的工作流程。
另外,Llama 2也可以通過AWS、Hugging Face和其他平臺獲得。
據(jù)稱,Llama 2在亞馬遜AWS上運行70B模型,1年,最低要求大約需要8.50萬美元。
此外,今天Meta還宣布了與高通聯(lián)手合作,計劃從2024年起在旗艦智能手機和個人電腦上提供基于Llama 2的能力。
讓開發(fā)人員能夠利用Snapdragon平臺的AI,推出令人興奮的新生成式人工智能應用。
五、網(wǎng)友試玩,Mac可跑
Llama 2的開源,就是AI社區(qū)的大狂歡。
許多網(wǎng)友紛紛用Midjourney各種AI工具生成羊駝,來致敬這一重要時刻。
小扎也被封神了。
HuggingFace的負責人稱,Meta在開源人工智能領(lǐng)域的影響力不斷擴大,已經(jīng)在Hugging Face上發(fā)布了600+模型,如MusicGen、Galactica、Wav2Vec等。
Llama 2開源后,第一步,開啟試玩。
已確認。Llama 2-70B可在48GB的單GPU上輕松訓練。70B 4位QLoRA和A6000暢通無阻。
Llama 2-7B已轉(zhuǎn)換為Core ML,并以每秒~6.5個token的速度在Mac本地運。
我剛才使用這個項目的最新版本在我的Mac上運行了Llama 2:https://github.com/jmorganca/ollama
很多人都在問Llama 2與其他流行模型相比如何?
與其他類似規(guī)模的模型相比,Llama 2顯然更勝一籌,而且根據(jù)基準測試,Llama 2 是最佳的OS模型!
參考資料:
https://ai.meta.com/llama/?utm_source=twitter&utm_medium=organic_social&utm_campaign=llama2&utm_content=video
編輯:編輯部
來源公眾號:新智元(ID:AI_era),“智能+”中國主平臺,致力于推動中國從“互聯(lián)網(wǎng)+”邁向“智能+”。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!