開源模型越來越落后?Meta甩出全新Llama 3應(yīng)戰(zhàn)
就在當(dāng)?shù)貢r間4月18日,Meta的Llama 3正式亮相了,Meta還透露他們目前正在開發(fā)一款超過4000億參數(shù)的Llama 3模型。我們不妨來看看本文的分享。
如同悶了很久,突然下的一場雨——Llama 3終于來了。
美國當(dāng)?shù)貢r間4月18日,Meta公司推出其開源大語言模型“Llama”(直譯是“羊駝”)系列的最新產(chǎn)品——Llama 3。更準(zhǔn)確地說,是發(fā)布了Llama 3系列的兩個版本:包含80億參數(shù)的Llama 3 8B和包含700億參數(shù)的Llama 3 70B。
Meta表示,Llama 3在性能上實(shí)現(xiàn)了重大躍遷。并稱它為“迄今為止最強(qiáng)的開源大模型”。就其參數(shù)量而言,Llama 3 8B和Llama 3 70B是目前市場上表現(xiàn)最佳的生成式AI模型之一,這兩款模型都是在兩個專門構(gòu)建的含24000個英偉達(dá)GPU的集群上訓(xùn)練的,在15萬億個Token上預(yù)訓(xùn)練的。
除此之外,Meta透露,他們目前正在開發(fā)一款超過4000億參數(shù)的Llama 3模型。這款模型不僅能用多種語言進(jìn)行對話,還能處理更多數(shù)據(jù),理解圖像及其他非文本模式,力求使Llama 3系列與Hugging Face的Idefics2等開源模型保持同步。
消息一出便引起熱議,埃隆·馬斯克(Elon Musk)在楊立昆(Yann LeCun)的X下面評論:“還不錯(Not bad)?!?/p>
英偉達(dá)高級研究經(jīng)理、具身智能負(fù)責(zé)人Jim Fan認(rèn)為即將推出的Llama 3-400B+模型將是社區(qū)獲得GPT-4級別模型的重要里程碑。
“這將為許多研究項(xiàng)目和初創(chuàng)企業(yè)帶來新的發(fā)展機(jī)遇。Llama-3-400B目前還在訓(xùn)練中,希望在接下來的幾個月能有所提升。這樣強(qiáng)大的模型將開啟大量研究的可能性。期待整個生態(tài)系統(tǒng)中創(chuàng)新活力的大爆發(fā)!”Jim Fan在X寫到。
Meta在一篇博客文章中表示:“我們的近期目標(biāo)是讓Llama 3支持多語種和多模態(tài)輸入,拓寬處理的上下文范圍,并繼續(xù)在核心功能如推理和編程方面提升性能。未來我們還將推出更多功能?!?/p>
同時,Llama 3將在亞馬遜、微軟、谷歌云等云平臺得到啟用,并得到英偉達(dá)等芯片巨頭和戴爾的硬件支持。并基于Llama 3升級了人工智能助手Meta AI,Meta將其稱為“免費(fèi)使用的最智能AI助手”。
Llama 3的主要亮點(diǎn)有:
- 使用超過15萬億token進(jìn)行訓(xùn)練,是Llama 2數(shù)據(jù)集規(guī)模的7倍以上;
- 在至少9個基準(zhǔn)測試中展現(xiàn)出領(lǐng)先的性能;
- 數(shù)學(xué)能力優(yōu)秀, Llama 3在推理、代碼生成和指令遵循等方面取得了顯著進(jìn)步;
- Llama 3的錯誤拒絕率大幅降低;
- 配備了Llama Guard 2、Code Shield等新一代的安全工具。
一、超4000億參數(shù)規(guī)模,超15萬億的訓(xùn)練token
Llama 3 在9項(xiàng)標(biāo)準(zhǔn)測試基準(zhǔn)上都有著更好的表現(xiàn),如都在70億參數(shù)級的Mistral 7B模型和Google Gemma 7B模型等。
這9個基準(zhǔn)測試包括MMLU(測試知識水平)、ARC(測試技能獲?。ROP(測試對文本塊的推理能力)、GPQA(涉及生物、物理和化學(xué)的問題)、HumanEval(代碼生成測試)、GSM-8K(數(shù)學(xué)應(yīng)用問題)、MATH(數(shù)學(xué)基準(zhǔn))、AGIEval(問題解決測試集)和BIG-Bench Hard(常識推理評估)。
來源:Meta
Llama 3 70B在MMLU、HumanEval和GSM-8K上戰(zhàn)勝了Gemini 1.5 Pro,雖然它可能無法與Anthropic的最高性能模型Claude 3 Opus相比,但在五個基準(zhǔn)測試(MMLU、GPQA、HumanEval、GSM-8K和MATH)上表現(xiàn)優(yōu)于Claude 3系列中的Claude 3 Sonnet。
來源:Meta
值得一提的是,Meta還開發(fā)了自己的測試集,涵蓋了從編程和創(chuàng)意寫作到推理和摘要的各種用例。Meta 表示,他們構(gòu)建了一個新的、高質(zhì)量的人類評估集,包括涵蓋 12 個關(guān)鍵場景的 1800 個提示詞。這些場景包括尋求建議、頭腦風(fēng)暴、分類、閉卷問答、開卷問答、編程、創(chuàng)意寫作、信息提取、塑造角色形象、推理、改寫和總結(jié)。在這個評估集中的測試顯示,70B 版本的 Llama 3 在指令調(diào)優(yōu)后,在對比 Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2 的比賽中,其勝率分別達(dá)到了 52.9%、59.3%、63.2%、63.7%。
來源:Meta
Meta表示,Llama 3有著更高的“可控性”,基本不會拒絕回答問題。同時在涉及歷史和STEM領(lǐng)域(如工程和科學(xué))的題目以及一般編程建議上更高的準(zhǔn)確性。這要得益于一個包含15萬億token的集合(約7500億個單詞),它是Llama 2訓(xùn)練集的7倍。
那么,數(shù)據(jù)來自哪里?
Meta透露,這些數(shù)據(jù)來自“公開可獲得的資源”,并包含了比Llama 2訓(xùn)練數(shù)據(jù)集中多4倍的代碼量,且為了滿足未來多語言的需求,Llama 3的預(yù)訓(xùn)練數(shù)據(jù)集中包含超過5%的高質(zhì)量非英語數(shù)據(jù),涵蓋了30多種語言。Meta 預(yù)計(jì),非英語語種的性能可能與英語有所差異。
Meta還使用了AI合成數(shù)據(jù)創(chuàng)建用于Llama 3模型訓(xùn)練的更長文檔,雖然這種方法由于潛在的性能缺陷而備受爭議。
“雖然我們今天發(fā)布的模型只針對英語輸出進(jìn)行了微調(diào),但數(shù)據(jù)的增多幫助模型更好地識別差異和模式?!盡eta在博客中寫道。
許多生成式AI供應(yīng)商將訓(xùn)練數(shù)據(jù)視為競爭優(yōu)勢,因此常常保密相關(guān)信息。此外,訓(xùn)練數(shù)據(jù)細(xì)節(jié)可能觸發(fā)知識產(chǎn)權(quán)相關(guān)的訴訟,這也是他們不愿透露太多的一個原因。最近的報(bào)道稱,Meta為了在AI領(lǐng)域保持競爭力,一度使用受版權(quán)保護(hù)的電子書進(jìn)行訓(xùn)練。
目前Meta和OpenAI因涉嫌未經(jīng)授權(quán)使用版權(quán)數(shù)據(jù)進(jìn)行訓(xùn)練,正面臨包括喜劇演員Sarah Silverman在內(nèi)的作者提起的法律訴訟。
Meta近期計(jì)劃推出Llama 3的新功能,包括更長的上下文窗口和更強(qiáng)大的性能,并將推出新的模型尺寸版本和公開Llama 3的研究論文。
二、Llama 3 要素拆解
Meta一直強(qiáng)調(diào)創(chuàng)新、擴(kuò)展和優(yōu)化的重要性。因此在開發(fā) Llama 3 時,Meta 遵循了這一設(shè)計(jì)哲學(xué),專注于四個核心要素:
- 模型架構(gòu):Llama 3使用了標(biāo)準(zhǔn)的純解碼器Transformer架構(gòu),并在 Llama 2的基礎(chǔ)上進(jìn)行了改進(jìn)。它引入了一個128K token的tokenizer,大幅提升了語言編碼效率。Meta 在開發(fā)中還加入了分組查詢關(guān)注(Grouped Query Attention, GQA),以提高模型在處理 8B 至 70B 大小模型的推理效率。訓(xùn)練時,模型處理高達(dá) 8192 token 的序列,且設(shè)計(jì)了掩碼機(jī)制以防止注意力機(jī)制跨越文檔邊界。
- 數(shù)據(jù)工程:Meta構(gòu)建了一個大型且高質(zhì)量的訓(xùn)練數(shù)據(jù)集,規(guī)模是Llama 2的七倍,代碼量是四倍。Llama 3的訓(xùn)練涵蓋了超過15T的 token,包括超過5%的高質(zhì)量非英語數(shù)據(jù),支持30多種語言。Meta采用了啟發(fā)式過濾器、NSFW過濾器、語義重復(fù)數(shù)據(jù)刪除以及文本分類器等方法來確保數(shù)據(jù)質(zhì)量,并進(jìn)行了大量實(shí)驗(yàn)以評估混合不同來源數(shù)據(jù)的最佳方法。
- 擴(kuò)大預(yù)訓(xùn)練規(guī)模:Meta制定了詳細(xì)的Scaling Law來最大化預(yù)訓(xùn)練數(shù)據(jù)的利用,這有助于優(yōu)化模型性能,尤其是在如代碼生成等關(guān)鍵任務(wù)上。在實(shí)際訓(xùn)練過程中,Llama 3的性能通過在達(dá)到15T token的訓(xùn)練量后還在對數(shù)線性增長,表現(xiàn)出其持續(xù)的學(xué)習(xí)能力。為了訓(xùn)練大規(guī)模模型,Meta結(jié)合了數(shù)據(jù)并行化、模型并行化和管道并行化技術(shù),并在16K GPU上實(shí)現(xiàn)了高達(dá)400 TFLOPS的計(jì)算利用率。
- 指令微調(diào)優(yōu)化:為了優(yōu)化Llama 3的聊天和編碼等使用場景,Meta 創(chuàng)新了其指令微調(diào)方法,結(jié)合了監(jiān)督微調(diào)、拒絕采樣、近似策略優(yōu)化和直接策略優(yōu)化等技術(shù)。這些技術(shù)不僅提升了模型在復(fù)雜任務(wù)中的表現(xiàn),還幫助模型在面對難解的推理問題時能生成正確的解答路徑。
在安全性方面,Meta的責(zé)任體現(xiàn)在采用了最高級別的系統(tǒng)級(system-level)方法來開發(fā)、部署Llama模型,希望將其作為一個更大系統(tǒng)的核心部分,賦予開發(fā)者主導(dǎo)設(shè)計(jì)的權(quán)力。此外,Meta 還對經(jīng)過指令微調(diào)的模型進(jìn)行了紅隊(duì)測試。
Llama Guard模型可提供及時的安全響應(yīng)能力,可以根據(jù)需求調(diào)整,以適應(yīng)新的安全標(biāo)準(zhǔn)。Meta還推出了CyberSecEval 2和Code Shield,分別用于增強(qiáng)對潛在安全風(fēng)險(xiǎn)的評估和提高對不安全代碼的過濾能力。
在AI技術(shù)迅速發(fā)展的今天,Meta通過不斷更新的《負(fù)責(zé)任使用指南》(RUG)和多種云服務(wù)工具,引導(dǎo)開發(fā)者負(fù)責(zé)任地使用和部署LLM,確保內(nèi)容的安全與合規(guī)。
同時,Meta披露,Llama 3即將在亞馬遜云(AWS)、Databricks、谷歌云、Hugging Face、Kaggle、IBM WatsonX、微軟云Azure、NVIDIA NIM和Snowflake等多個平臺上推出。這一過程得到了AMD、AWS、戴爾、英特爾和英偉達(dá)等公司的硬件支持。
在英偉達(dá)的加持下,Meta的工程師在一個包含24,576個英偉達(dá)H100 Tensor Core GPU的計(jì)算機(jī)集群上訓(xùn)練了Llama 3。為了推動生成式AI技術(shù),Meta 計(jì)劃在其基礎(chǔ)設(shè)施中使用35萬塊H100芯片。
英偉達(dá)已經(jīng)推出了支持Llama 3的各種平臺,包括云服務(wù)、數(shù)據(jù)中心、邊緣計(jì)算和個人電腦。開發(fā)者可以在英偉達(dá)的官網(wǎng)試用Llama 3,企業(yè)用戶可以通過NeMo框架利用自己的數(shù)據(jù)對Llama 3進(jìn)行優(yōu)化。
Llama 3還可在英偉達(dá)的Jetson Orin模塊上運(yùn)行,這對機(jī)器人開發(fā)和邊緣計(jì)算設(shè)備極為重要。此外,NVIDIA RTX和 GeForce RTX GPU能夠加速Llama 3的推理過程,這使得它也適用于工作站和個人電腦。
近期,開源和閉源之爭再次引發(fā)行業(yè)內(nèi)的激烈討論。開源模型會越來越落后?Meta用Llama 3給出了回應(yīng)。
Meta的這次表態(tài),也顯得意味深長:“我們致力于開放式人工智能生態(tài)系統(tǒng)的持續(xù)增長和發(fā)展,以負(fù)責(zé)任的方式發(fā)布我們的模型。我們一直堅(jiān)信,開放會帶來更好、更安全的產(chǎn)品、更快的創(chuàng)新和更健康的整體市場。這對Meta和社會都有好處。”
Llama這只羊駝,仍在狂奔中睥睨對手。
作者:蘇霍伊;編輯:王博
原文標(biāo)題:開源模型越來越落后?Meta甩出全新Llama 3應(yīng)戰(zhàn)|甲子光年
來源公眾號:甲子光年(ID:jazzyear),立足中國科技創(chuàng)新前沿陣地,動態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級案例。
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @甲子光年 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!