Llama 4出來,Meta 馬斯克遇到了大麻煩。

1 評論 1382 瀏覽 0 收藏 11 分鐘

Meta最近推出了其最新的AI模型系列Llama 4,聲稱在多模態(tài)功能和性能上取得了顯著進(jìn)步。然而,這一發(fā)布卻引發(fā)了廣泛的爭議和批評。

Meta 最近推出了其最新的 AI 模型系列 Llama 4,據(jù)稱引入了多模態(tài)功能的進(jìn)步和…

Meta 最近推出了其最新的 AI 模型系列Llama 4,據(jù)稱引入了多模態(tài)功能和性能的進(jìn)步。然而,結(jié)果不僅令人失望,而且完全是陰暗的。

Meta 現(xiàn)在處于非常麻煩的水域(AI 對其存在至關(guān)重要)。這在各個層面都有影響,第一次,哪個國家在開源 AI 方面處于領(lǐng)先地位(我認(rèn)為,基于此,在一般的 AI 方面)。

Meta 令人失望的發(fā)布不僅對 Meta 的抱負(fù)來說是可怕的;這是一個國家安全威脅

在一個充斥著使用難以理解的行話的虛假專家的世界里,第一性原理分析和人工智能通常不會放在一起。

Meta 花了異常長的時間(將近一年)才發(fā)布其 Llama 模型的新版本,該模型系列曾被認(rèn)為是開源 AI 的前沿。

但根據(jù) Llama 4 的結(jié)果,情況已不再如此。事實證明,他們永遠(yuǎn)不會交付一個好的模型,所以他們決定,嗯,做一個完全糟糕的交付,以至于:

Meta 作為前沿實驗室的日子現(xiàn)在已經(jīng)一去不復(fù)返了。

該版本模型包括兩個模型,第三個模型仍在開發(fā)中:

  1. Llama 4 Scout:該模型具有 170 億個活動參數(shù),使用 16 位專家,總計 1090 億個參數(shù)。據(jù)稱,它擁有 1000 萬個令牌的上下文窗口,旨在在單個 NVIDIA H100 GPU 上高效運行。這意味著,至少從理論上講,您可以在一個提示中向模型發(fā)送近 800 萬個單詞。
  2. Llama 4 Maverick:該模型也有 170 億個活動參數(shù),但雇傭了 128 名專家,累計參數(shù)總數(shù)達(dá)到 4000 億個。它經(jīng)過精心設(shè)計,在各種 AI 基準(zhǔn)測試中優(yōu)于 GPT-4o 和 Gemini 2.0 Flash 等模型,并且可以在單個 NVIDIA H100 DGX 服務(wù)器 (8xH100s) 上運行。
  3. Llama 4 Behemoth:目前仍在訓(xùn)練中,Behemoth 預(yù)計擁有 2880 億個活動參數(shù),總共大約2 萬億個參數(shù)。它的目標(biāo)是在 STEM 基準(zhǔn)測試中超越 GPT-4.5 和 Claude Sonnet 3.7 等模型,并被認(rèn)為是教師模型(不是用來服務(wù)的,而是用來訓(xùn)練較小的模型)。

起初,根據(jù)最初公布的結(jié)果,您會認(rèn)為這是今年最好的版本之一,因為:

  • Maverick 在 LMArena 上取得出色的成績,LMArena 是世界上主要的“氛圍評估”,由數(shù)千名不同的用戶評判。
  • 兩個已發(fā)布的模型在幾個流行的基準(zhǔn)測試中都取得了很好的結(jié)果,例如 GPQA Diamond(測試博士水平知識)。
  • 它在一些編碼基準(zhǔn)測試中顯示出非常強(qiáng)大的結(jié)果。

但是當(dāng)真人開始玩這些模型時,事情變得奇怪和尷尬,這些都是非常令人失望和有爭議的委婉說法。

自發(fā)布以來,Meta 一直面臨指控通過向 LMArena 基準(zhǔn)測試平臺提交明確針對對話性能優(yōu)化的Llama 4 Maverick 的實驗版本來縱 AI 基準(zhǔn)測試排名。

不過,關(guān)鍵是他們沒有透露這個實驗版本的存在,掩蓋了它不是主要版本,而是一個旨在最大化基準(zhǔn)測試結(jié)果的微調(diào)版本的事實。大多數(shù)模型都沒有“基準(zhǔn)測試調(diào)整”,這為 Meta 的模型提供了明顯的優(yōu)勢。

通俗地說,他們發(fā)布了一個針對該基準(zhǔn)測試優(yōu)化的模型,但沒有披露這一點以獲得超大的結(jié)果,并使其看起來像 Llama 4 Maverick 是一個瘋狂的好模型。

但指控遠(yuǎn)不止于此,有些人指責(zé) Meta 在測試集上進(jìn)行訓(xùn)練。這是你在 AI 中能得到的最接近重叛罪的。

但是為什么?

在訓(xùn)練模型時,您可以將可用數(shù)據(jù)隨機(jī)分為訓(xùn)練集和測試集。這樣,您可以使用測試集來檢查模型在訓(xùn)練集上訓(xùn)練期間是否學(xué)習(xí)了有意義的模式。

  • 如果你的模型在訓(xùn)練數(shù)據(jù)中表現(xiàn)良好,但在測試數(shù)據(jù)中表現(xiàn)不佳,則它已經(jīng)過度擬合到訓(xùn)練數(shù)據(jù),也就是記住了它。這使得它在現(xiàn)實世界中毫無用處,因為它只能在與用于訓(xùn)練的數(shù)據(jù)相同的數(shù)據(jù)中正常工作,而這種情況很少發(fā)生。
  • 相反,如果您的模型很好地“泛化”到測試數(shù)據(jù)中,則意味著該模型已經(jīng)從訓(xùn)練數(shù)據(jù)中壓縮了所需的知識,這些知識可以應(yīng)用于新的(分布內(nèi))數(shù)據(jù),使其可用。

但為什么這在 AI 中如此重要呢?讓我們看一個例子。假設(shè)您訓(xùn)練一個模型來識別貓,并希望測試它是否真的檢測到圖像中的貓。

您為模型提供了一個訓(xùn)練集,其中只有黑色和棕,而沒有橙,它們只出現(xiàn)在測試集中。如果您的模型了解貓是什么,它將了解到顏色并不能定義它是否是貓,并且應(yīng)該“泛化”并將橙識別為貓,即使它從未見過貓。這就是我們所說的 “泛化”。

這實際上是一個非常糟糕的訓(xùn)練數(shù)據(jù)分布,對模型完全不公平,因為你應(yīng)該在其中包含 orange cats。此外,這并不是訓(xùn)練和測試數(shù)據(jù)之間的純粹隨機(jī)分離,因為我們主動向模型隱藏了橙貓,這也是不好的做法,這只是為了證明我的觀點。

因此,通過進(jìn)行這種分離,您可以測試模型是簡單地記住訓(xùn)練集(貓只能是黑色或棕色,因為它所看到的只是黑色或棕色),還是真正理解了可推廣的模式(例如,所有貓都有四條腿、狹縫形的眼睛和一條尾巴)。因此,我們在訓(xùn)練期間對模型隱藏了測試集,只在推理期間使用它來測試性能。

相反,Meta 被指責(zé)在測試集上訓(xùn)練模型,這些測試集精確測試它是否真正泛化。

換句話說,用我們的類比來說,當(dāng)測試集想看看 Meta 的模型理解貓也可以是橙色的時,Meta 正在秘密地對橙進(jìn)行訓(xùn)練以確保它確實如此,但這并不能證明模型真的理解貓。

如果屬實,這實際上是作弊,絕對是褻瀆數(shù)據(jù),對于一個被認(rèn)為是——或者我應(yīng)該說曾經(jīng)是——前 5 名 AI 實驗室的實驗室來說,這是絕對不能接受的。

該版本的亮點之一是這些模型在長上下文窗口下表現(xiàn)出色,據(jù)稱 Llama 4 Scout 訓(xùn)練了 1000 萬個token。通俗地說,您可以發(fā)送最多 800 萬個單詞的模型提示(作為參考,這幾乎是整個哈利波特傳奇)。

然而,當(dāng)人們在處理 100k 個tokens的提示時測試模型的準(zhǔn)確性時,這些提示比聲稱的限制小了 100 倍,性能下降到 15%。

由于上下文窗口的時間越長,模型性能就越下降,因此聲稱模型可以處理一百倍大的提示的說法是可笑的,老實說,這是 Meta 的另一個赤裸裸的謊言,因為模型的性能更早地崩潰了。

總而言之,在當(dāng)前階段,很難高估這些結(jié)果的可怕程度。由于所有其他競爭的 AI Labs 的內(nèi)部模型與 Gemini 2.5 Pro 一樣好或更好,很明顯 Meta 遠(yuǎn)遠(yuǎn)落后于曲線。

由于 Llama 4 是 Meta 對這種架構(gòu)的第一次嘗試,很明顯,該架構(gòu)幾乎是 DeepSeek v3 的復(fù)制品,更糟糕的是,它是最近的努力。這表明,當(dāng) DeepSeek 在幾個月前發(fā)布 v3 時, 它讓 Meta 完全措手不及,并迫使他們放棄了以前版本的 Llama 4 并重新進(jìn)行整個訓(xùn)練。

總而言之

  • Llama 模型是構(gòu)建代理應(yīng)用程序的基礎(chǔ)(可以將其視為他們對 PyTorch 或 React 所做的)。Meta 工具是 AI 訓(xùn)練和網(wǎng)站開發(fā)的基礎(chǔ),使其能夠影響行業(yè)的發(fā)展方向。例如,如果 Meta 正在開發(fā)專用硬件,它可以確保 PyTorch 開箱即用地支持它。
  • Meta 利用開源創(chuàng)新循環(huán),通過其社交應(yīng)用為客戶提供模型的改進(jìn)版本。例如,Llama 3 為開源社區(qū)創(chuàng)建的特定任務(wù)提供了幾乎無限的微調(diào)模型。由于 Meta 圍繞 Llama 構(gòu)建其 AI 戰(zhàn)略,它實際上是有人免費為它工作,并且可以不費吹灰之力地采用這些微調(diào)的模型

本文由 @來學(xué)習(xí)一下 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不知道是機(jī)翻還是ai生成,讀起來不太通順。

    來自美國 回復(fù)