激情五月亚洲色五月，欧美午夜精品免费理论片，久久精品手机观看，亚洲AV秘片一区二区三，五月天国产亚洲激情在线观看，亚洲无码高清视频，一级无码毛片在线免费看，中文字幕无码不卡顿

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

Llama 4出來，Meta 馬斯克遇到了大麻煩。

來學(xué)習(xí)一下

2025-04-16

1 評論 1382 瀏覽 0 收藏

11 分鐘

Meta最近推出了其最新的AI模型系列Llama 4，聲稱在多模態(tài)功能和性能上取得了顯著進(jìn)步。然而，這一發(fā)布卻引發(fā)了廣泛的爭議和批評。

Meta 最近推出了其最新的 AI 模型系列 Llama 4，據(jù)稱引入了多模態(tài)功能的進(jìn)步和…

Meta 最近推出了其最新的 AI 模型系列Llama 4，據(jù)稱引入了多模態(tài)功能和性能的進(jìn)步。然而，結(jié)果不僅令人失望，而且完全是陰暗的。

Meta 現(xiàn)在處于非常麻煩的水域（AI 對其存在至關(guān)重要）。這在各個層面都有影響，第一次，哪個國家在開源 AI 方面處于領(lǐng)先地位（我認(rèn)為，基于此，在一般的 AI 方面）。

Meta 令人失望的發(fā)布不僅對 Meta 的抱負(fù)來說是可怕的;這是一個國家安全威脅。

在一個充斥著使用難以理解的行話的虛假專家的世界里，第一性原理分析和人工智能通常不會放在一起。

Meta 花了異常長的時間（將近一年）才發(fā)布其 Llama 模型的新版本，該模型系列曾被認(rèn)為是開源 AI 的前沿。

但根據(jù) Llama 4 的結(jié)果，情況已不再如此。事實證明，他們永遠(yuǎn)不會交付一個好的模型，所以他們決定，嗯，做一個完全糟糕的交付，以至于：

Meta 作為前沿實驗室的日子現(xiàn)在已經(jīng)一去不復(fù)返了。

該版本模型包括兩個模型，第三個模型仍在開發(fā)中：

Llama 4 Scout：該模型具有 170 億個活動參數(shù)，使用 16 位專家，總計 1090 億個參數(shù)。據(jù)稱，它擁有 1000 萬個令牌的上下文窗口，旨在在單個 NVIDIA H100 GPU 上高效運行。這意味著，至少從理論上講，您可以在一個提示中向模型發(fā)送近 800 萬個單詞。
Llama 4 Maverick：該模型也有 170 億個活動參數(shù)，但雇傭了 128 名專家，累計參數(shù)總數(shù)達(dá)到 4000 億個。它經(jīng)過精心設(shè)計，在各種 AI 基準(zhǔn)測試中優(yōu)于 GPT-4o 和 Gemini 2.0 Flash 等模型，并且可以在單個 NVIDIA H100 DGX 服務(wù)器（8xH100s）上運行。
Llama 4 Behemoth：目前仍在訓(xùn)練中，Behemoth 預(yù)計擁有 2880 億個活動參數(shù)，總共大約2 萬億個參數(shù)。它的目標(biāo)是在 STEM 基準(zhǔn)測試中超越 GPT-4.5 和 Claude Sonnet 3.7 等模型，并被認(rèn)為是教師模型（不是用來服務(wù)的，而是用來訓(xùn)練較小的模型）。

起初，根據(jù)最初公布的結(jié)果，您會認(rèn)為這是今年最好的版本之一，因為：

Maverick 在 LMArena 上取得出色的成績，LMArena 是世界上主要的“氛圍評估”，由數(shù)千名不同的用戶評判。
兩個已發(fā)布的模型在幾個流行的基準(zhǔn)測試中都取得了很好的結(jié)果，例如 GPQA Diamond（測試博士水平知識）。
它在一些編碼基準(zhǔn)測試中顯示出非常強(qiáng)大的結(jié)果。

但是當(dāng)真人開始玩這些模型時，事情變得奇怪和尷尬，這些都是非常令人失望和有爭議的委婉說法。

自發(fā)布以來，Meta 一直面臨指控通過向 LMArena 基準(zhǔn)測試平臺提交明確針對對話性能優(yōu)化的Llama 4 Maverick 的實驗版本來縱 AI 基準(zhǔn)測試排名。

不過，關(guān)鍵是他們沒有透露這個實驗版本的存在，掩蓋了它不是主要版本，而是一個旨在最大化基準(zhǔn)測試結(jié)果的微調(diào)版本的事實。大多數(shù)模型都沒有“基準(zhǔn)測試調(diào)整”，這為 Meta 的模型提供了明顯的優(yōu)勢。

通俗地說，他們發(fā)布了一個針對該基準(zhǔn)測試優(yōu)化的模型，但沒有披露這一點以獲得超大的結(jié)果，并使其看起來像 Llama 4 Maverick 是一個瘋狂的好模型。

但指控遠(yuǎn)不止于此，有些人指責(zé) Meta 在測試集上進(jìn)行訓(xùn)練。這是你在 AI 中能得到的最接近重叛罪的。

但是為什么？

在訓(xùn)練模型時，您可以將可用數(shù)據(jù)隨機(jī)分為訓(xùn)練集和測試集。這樣，您可以使用測試集來檢查模型在訓(xùn)練集上訓(xùn)練期間是否學(xué)習(xí)了有意義的模式。

如果你的模型在訓(xùn)練數(shù)據(jù)中表現(xiàn)良好，但在測試數(shù)據(jù)中表現(xiàn)不佳，則它已經(jīng)過度擬合到訓(xùn)練數(shù)據(jù)，也就是記住了它。這使得它在現(xiàn)實世界中毫無用處，因為它只能在與用于訓(xùn)練的數(shù)據(jù)相同的數(shù)據(jù)中正常工作，而這種情況很少發(fā)生。
相反，如果您的模型很好地“泛化”到測試數(shù)據(jù)中，則意味著該模型已經(jīng)從訓(xùn)練數(shù)據(jù)中壓縮了所需的知識，這些知識可以應(yīng)用于新的（分布內(nèi)）數(shù)據(jù)，使其可用。

但為什么這在 AI 中如此重要呢？讓我們看一個例子。假設(shè)您訓(xùn)練一個模型來識別貓，并希望測試它是否真的檢測到圖像中的貓。

您為模型提供了一個訓(xùn)練集，其中只有黑色和棕，而沒有橙，它們只出現(xiàn)在測試集中。如果您的模型了解貓是什么，它將了解到顏色并不能定義它是否是貓，并且應(yīng)該“泛化”并將橙識別為貓，即使它從未見過貓。這就是我們所說的 “泛化”。

這實際上是一個非常糟糕的訓(xùn)練數(shù)據(jù)分布，對模型完全不公平，因為你應(yīng)該在其中包含 orange cats。此外，這并不是訓(xùn)練和測試數(shù)據(jù)之間的純粹隨機(jī)分離，因為我們主動向模型隱藏了橙貓，這也是不好的做法，這只是為了證明我的觀點。

因此，通過進(jìn)行這種分離，您可以測試模型是簡單地記住訓(xùn)練集（貓只能是黑色或棕色，因為它所看到的只是黑色或棕色），還是真正理解了可推廣的模式（例如，所有貓都有四條腿、狹縫形的眼睛和一條尾巴）。因此，我們在訓(xùn)練期間對模型隱藏了測試集，只在推理期間使用它來測試性能。

相反，Meta 被指責(zé)在測試集上訓(xùn)練模型，這些測試集精確測試它是否真正泛化。

換句話說，用我們的類比來說，當(dāng)測試集想看看 Meta 的模型理解貓也可以是橙色的時，Meta 正在秘密地對橙進(jìn)行訓(xùn)練以確保它確實如此，但這并不能證明模型真的理解貓。

如果屬實，這實際上是作弊，絕對是褻瀆數(shù)據(jù)，對于一個被認(rèn)為是——或者我應(yīng)該說曾經(jīng)是——前 5 名 AI 實驗室的實驗室來說，這是絕對不能接受的。

該版本的亮點之一是這些模型在長上下文窗口下表現(xiàn)出色，據(jù)稱 Llama 4 Scout 訓(xùn)練了 1000 萬個token。通俗地說，您可以發(fā)送最多 800 萬個單詞的模型提示（作為參考，這幾乎是整個哈利波特傳奇）。

然而，當(dāng)人們在處理 100k 個tokens的提示時測試模型的準(zhǔn)確性時，這些提示比聲稱的限制小了 100 倍，性能下降到 15%。

由于上下文窗口的時間越長，模型性能就越下降，因此聲稱模型可以處理一百倍大的提示的說法是可笑的，老實說，這是 Meta 的另一個赤裸裸的謊言，因為模型的性能更早地崩潰了。

總而言之，在當(dāng)前階段，很難高估這些結(jié)果的可怕程度。由于所有其他競爭的 AI Labs 的內(nèi)部模型與 Gemini 2.5 Pro 一樣好或更好，很明顯 Meta 遠(yuǎn)遠(yuǎn)落后于曲線。

由于 Llama 4 是 Meta 對這種架構(gòu)的第一次嘗試，很明顯，該架構(gòu)幾乎是 DeepSeek v3 的復(fù)制品，更糟糕的是，它是最近的努力。這表明，當(dāng) DeepSeek 在幾個月前發(fā)布 v3 時， 它讓 Meta 完全措手不及，并迫使他們放棄了以前版本的 Llama 4 并重新進(jìn)行整個訓(xùn)練。

總而言之

Llama 模型是構(gòu)建代理應(yīng)用程序的基礎(chǔ)（可以將其視為他們對 PyTorch 或 React 所做的）。Meta 工具是 AI 訓(xùn)練和網(wǎng)站開發(fā)的基礎(chǔ)，使其能夠影響行業(yè)的發(fā)展方向。例如，如果 Meta 正在開發(fā)專用硬件，它可以確保 PyTorch 開箱即用地支持它。
Meta 利用開源創(chuàng)新循環(huán)，通過其社交應(yīng)用為客戶提供模型的改進(jìn)版本。例如，Llama 3 為開源社區(qū)創(chuàng)建的特定任務(wù)提供了幾乎無限的微調(diào)模型。由于 Meta 圍繞 Llama 構(gòu)建其 AI 戰(zhàn)略，它實際上是有人免費為它工作，并且可以不費吹灰之力地采用這些微調(diào)的模型。

本文由 @來學(xué)習(xí)一下原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

該文觀點僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App