LLM 進(jìn)化分岔口:多模態(tài)、成本、代碼推理
在人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)的進(jìn)化正處在一個(gè)關(guān)鍵的分岔口,其中多模態(tài)能力、成本效率和代碼推理能力是未來(lái)發(fā)展的三大核心方向。文章深入分析了OpenAI和Anthropic這兩家在LLM領(lǐng)域處于領(lǐng)先地位的公司,它們?cè)?024年的技術(shù)動(dòng)態(tài)、產(chǎn)品發(fā)展和人才變動(dòng),揭示了它們?cè)贚LM進(jìn)化路徑上的不同選擇和戰(zhàn)略重點(diǎn)。
頭部模型的新一代模型的是市場(chǎng)觀測(cè)、理解 LLM 走向的風(fēng)向標(biāo)。
即將發(fā)布的 OpenAI GPT-Next 和 Anthropic Claude 3.5 Opus 無(wú)疑是 AGI 下半場(chǎng)最關(guān)鍵的事件。
本篇研究是拾象團(tuán)隊(duì)對(duì) OpenAI 和 Anthropic 在 2024 年至今重要技術(shù)動(dòng)作、產(chǎn)品投入、團(tuán)隊(duì)變化的總結(jié)和分析,我們希望從這些關(guān)鍵細(xì)節(jié)來(lái)理解頭部模型公司的核心主線,更深入地把握 LLM 的進(jìn)化方向。
在這個(gè)過(guò)程中,我們很明顯能感受到,雖然 OpenAI 和 Anthropic 的新一代模型都選擇了 self-play RL 技術(shù)路線,但兩家公司其實(shí)在 LLM 接下來(lái)要怎么進(jìn)化的問(wèn)題上出現(xiàn)了分叉:
- 對(duì)于 OpenAI 來(lái)說(shuō),模型成本下降和多模態(tài)能力的提升是最重要的主線,4o-mini 的發(fā)布就比最早的 GPT-4 成本下降了 150 倍,并且 OpenAI 也在積極地嘗試新的產(chǎn)品方向;
- Anthropic 的關(guān)注點(diǎn)顯然放在了推理能力上,尤其是在代碼生成能力上下功夫。在模型產(chǎn)品線上,也能感受到 Anthropic 明確的取舍,多模態(tài)不是它們的未來(lái)重心,尤其視頻生成是一定不會(huì)在產(chǎn)品中加入的。
OpenAI 和 Anthropic 之間的差異既和創(chuàng)始人風(fēng)格、團(tuán)隊(duì)技術(shù)審美、商業(yè) roadmap 等因素相關(guān),也是 LLM 領(lǐng)域各派聲音的集中呈現(xiàn)。
本系列會(huì)保持半年一次的更新頻率,希望為市場(chǎng)理解 LLM 帶來(lái)方向性啟發(fā)。
01. 模型更新
OpenAI
主線 1:成本下降
LLM 大模型的成本下降趨勢(shì)是非常明確的,在 GPT-3.5 和 GPT-4 的模型定價(jià)上都體現(xiàn)得尤其明顯。
4o 的模型設(shè)計(jì)初衷除了大家熟知的多模態(tài)之外,就是為了推理成本優(yōu)化而設(shè)計(jì)的。在這基礎(chǔ)上,甚至 4o-mini 可以再下降 33 倍的成本,這個(gè)成本下降幅度是非常驚人的。
我們相信未來(lái)隨著時(shí)間推進(jìn)和工程 infra 的優(yōu)化,4o 模型可能還有 10 倍的成本下降空間,很多當(dāng)前模型能力下的 use case 都能迎來(lái) ROI 打正的時(shí)刻。
同時(shí)值得一提的是,OpenAI 推出了新的 batch API 方案:API 不實(shí)時(shí)返回結(jié)果,而是在未來(lái) 24 小時(shí)內(nèi)返回結(jié)果,這能使 API 價(jià)格打?qū)φ?。這適用于對(duì)時(shí)間不敏感的大批量任務(wù),可以大量節(jié)省成本。這個(gè)方法能降成本是因?yàn)槟壳暗膶?shí)時(shí)推理中 long context 和短的會(huì)放在一個(gè) batch 中處理浪費(fèi)很多資源,而降低實(shí)時(shí)性能夠?qū)⑾?context length 放在一起計(jì)算來(lái)降低成本。
OpenAI 還沒(méi)有推出 Anthropic 使用的 prompt caching,不確定是否已經(jīng)用類似方式進(jìn)行降本了:Claude 在 long context 下可以通過(guò)把部分常用 prompt 存在緩存中來(lái)節(jié)省 90% 成本,降低 85% latency。這個(gè)方法在 RL 技術(shù)路線下會(huì)非常有用,因?yàn)槟P?self-play 探索時(shí)會(huì)有大量重復(fù) context。
另外 4o 對(duì)多語(yǔ)言數(shù)據(jù)的 tokenizer 效率提升,也能帶來(lái)更低的成本。多語(yǔ)種在壓縮過(guò)程中的 token 消耗量都顯著降低,例如一句話原本需要 34 個(gè)中文 token,現(xiàn)在 24 個(gè)就能夠?qū)崿F(xiàn)。
主線 2:多模態(tài)交互能力提升
模型能力角度上,OpenAI 在今年上半年最大的進(jìn)展在多模態(tài)能力上:
理解側(cè)
1)GPT-4o 模型的發(fā)布實(shí)現(xiàn)了端到端的多模態(tài)能力,在語(yǔ)音對(duì)話和多模態(tài)能力上有明顯提升的同時(shí),降低了成本且沒(méi)有降低推理能力。其語(yǔ)音功能至今仍未大面積推出, advanced mode 還在緩慢 roll out 中。
speech-to-text:顯著領(lǐng)先于 Whisper。端到端模型在語(yǔ)音上顯示出了一定的 emergent capability,比如何時(shí)能打斷并介入與用戶的對(duì)話。等大規(guī)模鋪開(kāi)后在語(yǔ)音陪伴等場(chǎng)景的 PMF 可能迎來(lái)新一波的機(jī)會(huì)。
視覺(jué)理解:顯著高于其他模型,但沒(méi)有出現(xiàn)多模態(tài) unify 帶來(lái)的智能涌現(xiàn)。視頻數(shù)據(jù)的信噪比太低,在當(dāng)前架構(gòu)下和文本數(shù)據(jù)放在一起,并沒(méi)有帶來(lái)顯著的多模態(tài)智能,這是多模態(tài)理解領(lǐng)域上需要解決的問(wèn)題。
生成側(cè):
a. 在 vision 方面發(fā)布了 Sora 視頻生成模型,Sora 發(fā)布后視頻生成領(lǐng)域的 SOTA 暫時(shí)收斂到了 DiT 架構(gòu)。由于 Sora 目前還在 demo 階段,我們預(yù)期下半年會(huì)發(fā)布給公眾使用。
b. 4o 模型作為一個(gè)端到端生成模型,也在探索用端到端 autoregressive 的方式生成圖片。
Anthropic
主線 1:模型推理能力增強(qiáng)
2024 年上半年,Anthropic 在 Claude 模型系列上取得了顯著進(jìn)展。3 月 4 日,公司推出了 Claude 3 系列,包括 Opus、Sonnet 和 Haiku 三個(gè)版本,每個(gè)版本都針對(duì)不同的應(yīng)用場(chǎng)景和需求進(jìn)行了優(yōu)化。President Daniela Amodei 在最近的一次公開(kāi)分享中提到,他們?cè)O(shè)計(jì)時(shí)的想法是 :
? Opus 為復(fù)雜推理、研究場(chǎng)景設(shè)計(jì)。Opus 是第一個(gè)超越 GPT-4 的模型,但定價(jià)偏高性價(jià)比差。
? Sonnet 是為企業(yè)常用需求如 RAG 設(shè)計(jì)的,可能是因此第一個(gè)做了 3.5 版本。
? Haiku 是為實(shí)時(shí)性強(qiáng)的客服等對(duì)話場(chǎng)景設(shè)計(jì)(由此推測(cè),他們也可能在 voice 領(lǐng)域推出端到端模型)。
6 月 21 日 Anthropic 又發(fā)布了 Claude 3.5 Sonnet,進(jìn)一步提升了模型的性能和能力。Anthropic 還預(yù)告將在 2024 年晚些時(shí)候推出 Claude 3.5 系列,包括 Haiku 和 Opus 版本。Opus 版本是最值得期待的,看其是否能夠大幅超越 GPT-4 的推理水平。
在性能方面,Claude 模型取得了很大進(jìn)步。
Claude 3.5 Sonnet 在很多領(lǐng)域的表現(xiàn)超越了 GPT-4,特別是在研究生級(jí)推理和編程能力方面。直到 9 月,其他所有模型的更新都無(wú)法在 Coding 和復(fù)雜推理能力上超越 Sonnet 3.5。
其 coding 能力提升也帶來(lái)了一系列 AI coding 產(chǎn)品的實(shí)現(xiàn):Cursor 作為 IDE 的開(kāi)發(fā)體驗(yàn)一下子流暢了很多,甚至 Websim 這樣在上半年看起來(lái)是 toy project 的產(chǎn)品在現(xiàn)在也有了不錯(cuò)的效果。背后原因都是 Claude Sonnet 3.5 能生成上百行的可靠代碼,而之前的 SOTA 模型只能生成 20 行左右。
模型的其他維度能力也在各個(gè) use case 得到了全面擴(kuò)展。Claude 3.5 Sonnet 的推理速度是 Claude 3 Opus 的兩倍,可以處理 200K token 的上下文窗口,相當(dāng)于約 500 頁(yè)文檔的內(nèi)容。多模態(tài)能力也得到顯著增強(qiáng),特別是在視覺(jué)理解方面,包括圖表解讀和從不完美圖像中準(zhǔn)確轉(zhuǎn)錄文本的能力。
主線 2:模型擬人能力增強(qiáng)
Anthropic 首次在 Claude 3 系列中引入了”性格訓(xùn)練”(Character Training),這項(xiàng)能力是在 post training 加入的。這項(xiàng)創(chuàng)新旨在賦予模型良好的性格特征,通過(guò)生成數(shù)據(jù)和自我排序來(lái)內(nèi)化這些特征。這不僅提高了模型的吸引力和互動(dòng)性,用戶反饋也表明與模型的對(duì)話變得更加有趣。
訓(xùn)練方式:首先要求 Claude 生成各種與特定性格特征相關(guān)的人類消息——例如,關(guān)于價(jià)值觀的問(wèn)題或關(guān)于 Claude 自身的問(wèn)題。然后向 Claude 展示這些性格特征,并讓它針對(duì)每條消息產(chǎn)生符合其性格的不同回應(yīng)。之后,Claude 會(huì)根據(jù)每個(gè)回應(yīng)與其性格的契合程度對(duì)這些回答進(jìn)行排序。通過(guò)對(duì)這些回答的排序訓(xùn)練一個(gè)偏好模型,我們可以教導(dǎo) Claude 內(nèi)化其性格特征,而無(wú)需人類的交互或反饋。
盡管這個(gè)訓(xùn)練流程僅使用 Claude 自身生成的合成數(shù)據(jù),但構(gòu)建和調(diào)整這些特征仍然是一個(gè)相對(duì)手動(dòng)的過(guò)程,需要人類研究人員密切檢查每個(gè)特征如何改變模型的行為。
這個(gè)方向結(jié)合他們的 interpretability 的研究,可以看到他們?cè)谀P偷目煽匦陨舷铝撕芏喙Ψ颉?/p>
用戶評(píng)價(jià)
我們也收集了一系列用戶對(duì) 4o 模型和 Claude 3.5 的用戶使用評(píng)價(jià):
GPT-4o 優(yōu)勢(shì):
- 速度快,響應(yīng)迅速:在 iOS 應(yīng)用中使用 GPT-4o 時(shí),幾乎感覺(jué)不到延遲,能夠?qū)崿F(xiàn)類似實(shí)時(shí)對(duì)話的體驗(yàn)。
- 多模態(tài)能力強(qiáng):GPT-4o 有更完備的語(yǔ)音對(duì)話和圖片識(shí)別能力,且語(yǔ)音識(shí)別準(zhǔn)確度、對(duì)話智能度很高,還有創(chuàng)作圖片的能力。
- 在一般對(duì)話和簡(jiǎn)單任務(wù)中表現(xiàn)良好。
- ROI 高:用戶普遍表示,對(duì)于需要頻繁使用 AI 但預(yù)算有限的情況,GPT-4o 提供了很好的性價(jià)比。
GPT-4o 劣勢(shì):
- 在復(fù)雜推理、數(shù)學(xué)和編程任務(wù)中表現(xiàn)不佳 :例如有用戶提到在使用 GPT-4o 編寫 C++的類型定義時(shí),4o 不能特別好的理解復(fù)雜需求。
- 輸出冗長(zhǎng),常忽視簡(jiǎn)潔指令:即使用戶明確要求簡(jiǎn)短回答,GPT-4o 仍傾向于提供詳細(xì)解釋,有時(shí)甚至重寫整個(gè)段落/代碼塊而非只給出必要修改。
- 在專業(yè)問(wèn)題下不如早期的 GPT-4 版本:一些用戶提到在處理特定領(lǐng)域的專業(yè)問(wèn)題時(shí),GPT-4o 的表現(xiàn)不如早期的 GPT-4 模型,可能和其模型進(jìn)行量化降成本有關(guān)。
Claude 3.5 Sonnet 優(yōu)勢(shì):
- 在復(fù)雜推理、長(zhǎng)文本處理和編程方面表現(xiàn)優(yōu)異:多位用戶提到 Claude 在處理 C#和 C++等編程語(yǔ)言的復(fù)雜任務(wù)時(shí)表現(xiàn)出色,能夠準(zhǔn)確理解和執(zhí)行復(fù)雜指令。
- 更好地遵循復(fù)雜指令:用戶發(fā)現(xiàn) Claude 能夠準(zhǔn)確執(zhí)行多步驟任務(wù),如在學(xué)術(shù)研究中按特定格式生成報(bào)告并同時(shí)進(jìn)行數(shù)據(jù)分析。
- 創(chuàng)意寫作和人性化交流能力強(qiáng) 用戶表示 Claude 能夠更好地捕捉和模仿特定的寫作風(fēng)格,產(chǎn)生的內(nèi)容往往更貼近人類作者的水平。
- 在 C#、C++等特定編程語(yǔ)言中表現(xiàn)出色:一位用戶提到,在使用 Claude 重寫 C#方法時(shí),生成的代碼通??梢灾苯邮褂?。
Claude 3.5 Sonnet 劣勢(shì):
- 模型外部能力局限:Claude 無(wú)法生成圖像,沒(méi)有實(shí)時(shí)網(wǎng)絡(luò)搜索功能,也沒(méi)有語(yǔ)音交互的能力。
- 某些用戶反映最近性能有所下降:有用戶提到 Claude 在某些特定領(lǐng)域的回答質(zhì)量不如以前準(zhǔn)確,可能是由于成本優(yōu)化導(dǎo)致的。
02. 產(chǎn)品進(jìn)展
OpenAI
用戶數(shù)據(jù)上漲:多模態(tài)帶動(dòng)交互創(chuàng)新,4o 讓產(chǎn)品再度擴(kuò)圈。
1)ChatGPT 用量隨 4o 的發(fā)布大幅增長(zhǎng):
a. OpenAI 的訪問(wèn)量自 2023 年 5 月達(dá)到峰值后,因?yàn)槭罴匍_(kāi)始下降,后續(xù)變進(jìn)入波動(dòng),直到今年 5 月 GPT-4o 發(fā)布后再次飆升,在 2024 年 6 月的訪問(wèn)量達(dá)到 2.9 億次,比 2024 年 5 月增長(zhǎng)了 15.6%,而 2024 年 5 月則比歷史最高值增長(zhǎng)了 40%(2023 年 5 月),GPT-4o 對(duì)用戶量的拉動(dòng)是極為明顯的。
b. 去年訪問(wèn)量在夏季下降,今年沒(méi)有出現(xiàn)這種趨勢(shì),主要得益于 GPT-4o 推出,OpenAI 能夠持續(xù)保留和吸引新用戶。(一定程度上也得益于 GPT-4o 多模態(tài)能力使得 ChatGPT 進(jìn)一步向生活場(chǎng)景拓展,而非僅僅是一個(gè)效率工作產(chǎn)品)。但節(jié)日趨勢(shì)在其他產(chǎn)品上還是明顯存在的:C.AI 流量上升,Perplexity 流量下降。
c. 截止到今年 6 月的 Web MAU 約為 2.3 億,移動(dòng)端 DAU 約為 320 萬(wàn)。
2)放在搜索引擎語(yǔ)境下,ChatGPT 的用量持續(xù)超越 Bing 和 Perplexity,與 Google 仍有量級(jí)上的差距,但開(kāi)始逐漸蠶食傳統(tǒng)搜索引擎的心智。
盡管 Google 整體搜索份額還比較穩(wěn)定在 91%+,但其桌面端被拿份額的趨勢(shì)比較明顯,美國(guó)和全球數(shù)據(jù)都是這個(gè)趨勢(shì)。ISI 發(fā)布了一份報(bào)告介紹他們對(duì) 1000 多名消費(fèi)者的調(diào)查結(jié)果。他們注意到,從6月到8月,Google 作為首選搜索引擎的份額從80%下降到74%,而ChatGPT的份額從1%增加到8%。
? 6 月份 ChatGPT / Perplexity 流量略降,Claude 有個(gè)跳漲,和 Sonnet 3.5 模型能力顯著提升有關(guān)。
3)對(duì) AI 產(chǎn)品流量和商業(yè)模式的思考
a. 在 AI 時(shí)代流量最大的產(chǎn)品不一定產(chǎn)生最大的價(jià)值,完成任務(wù)的難度更重要。這個(gè)觀點(diǎn)的前提是廣告模式不是 AI 時(shí)代最后的 business model。
b. 大模型公司的商業(yè)模式不比移動(dòng)互聯(lián)網(wǎng)簡(jiǎn)單,更像傳統(tǒng)零售的庫(kù)存模式:資源都分配給訓(xùn)練用戶用不上產(chǎn)品,那就是庫(kù)存積壓;資源給推理太多模型能力跟不上,是庫(kù)存短缺。
c. 目前看到的大模型公司商業(yè)模式,要明顯比互聯(lián)網(wǎng)廣告和軟件訂閱的商業(yè)模式差很多。后兩者最重要的特征是 ① 提供服務(wù)的邊際成本幾乎是零,或是持續(xù)顯著下降。② 黏性/用戶留存極強(qiáng)。意味著企業(yè)只要投入建立平臺(tái)/軟件產(chǎn)品及獲客,后續(xù)收入的利潤(rùn)率極高,且持續(xù)性很強(qiáng)。大模型無(wú)論是 API 還是訂閱制,定價(jià)端很難提價(jià),而隨著模型能力增強(qiáng),用戶query/任務(wù)會(huì)更加復(fù)雜,服務(wù)用戶需求的成本還可能是上升的。
從生產(chǎn)力助手到 Agent 探索:
feature 更新和收購(gòu)并行
根據(jù) chatgpt 今年 1 月-7 月的產(chǎn)品升級(jí),可以發(fā)現(xiàn)如下幾個(gè)趨勢(shì),他們是明顯在從生產(chǎn)力助手往 agent 方向在探索:
? 新的交互模式已經(jīng)有了雛形,在日常生活中的應(yīng)用場(chǎng)景大大擴(kuò)寬:通過(guò)對(duì)多模態(tài)能力的不斷強(qiáng)化,目前能夠?qū)D片進(jìn)行解讀、翻譯和推薦、實(shí)時(shí)語(yǔ)音交流、屏幕讀取功能。
? 工作效率產(chǎn)品逐漸完善:針對(duì)數(shù)據(jù)分析需求,ChatGPT 新增了與云存儲(chǔ)服務(wù)如 Google Drive 和 Microsoft OneDrive 的直接集成,以及實(shí)時(shí)表格交互和可定制的圖表功能。
? 在逐步搭建生態(tài)系統(tǒng),盡可能多的平臺(tái)整合:與蘋果等大平臺(tái)的整合,推出桌面版,提升了在不同操作系統(tǒng)和應(yīng)用中的可用性和用戶接觸點(diǎn)。
? memory 功能加入:目前還只是把文字內(nèi)容總結(jié)成簡(jiǎn)單的一個(gè)標(biāo)簽放進(jìn) system prompt。下一步結(jié)合 Rockset 的收購(gòu)可能為外部互聯(lián)網(wǎng)和每個(gè)用戶的聊天記錄建立 index,做到更強(qiáng)的個(gè)性化。
同時(shí)也值得分析一下他們是收購(gòu)三家公司的價(jià)值,和他們實(shí)現(xiàn) agent 的愿景高度相關(guān):
1)Rockset(2024 年 6 月收購(gòu)):
Rockset 是一家專注于實(shí)時(shí)分析數(shù)據(jù)庫(kù)的公司,以其先進(jìn)的數(shù)據(jù)索引和查詢能力而聞名,成立于 2016 年。OpenAI 收購(gòu) Rockset 的戰(zhàn)略動(dòng)機(jī)主要是為了增強(qiáng)其檢索基礎(chǔ)設(shè)施。這將使 OpenAI 能夠提供更強(qiáng)大和高效的數(shù)據(jù)處理能力,特別是在實(shí)時(shí)搜索和 RAG 上。此次收購(gòu)預(yù)計(jì)將顯著提升 OpenAI 在數(shù)據(jù) retrieval、分析和檢索方面的能力,使其 AI 解決方案更加強(qiáng)大,能更好地響應(yīng)實(shí)時(shí)數(shù)據(jù)需求。這也增強(qiáng)了 OpenAI 在與其他 AI 模型提供商和全棧生成 AI 平臺(tái)競(jìng)爭(zhēng)時(shí)的技術(shù)實(shí)力。
此外,未來(lái)的 agent 中最關(guān)鍵的工程設(shè)計(jì)在于 memory 的設(shè)計(jì),前面這套在 RAG 和 search 的方案也可以用在未來(lái) agent 的記憶機(jī)制上。
2)Multi(原 Remotion,2024 年 6 月收購(gòu)):
Multi 是一家開(kāi)發(fā)實(shí)時(shí)協(xié)作工具的初創(chuàng)公司,允許用戶共享屏幕并在編碼等任務(wù)上協(xié)同工作。OpenAI 收購(gòu) Multi 的戰(zhàn)略目的是利用其技術(shù)來(lái)增強(qiáng)遠(yuǎn)程協(xié)作能力和 AI 驅(qū)動(dòng)的內(nèi)容摘要功能。這與 OpenAI 通過(guò) AI 改善團(tuán)隊(duì)協(xié)作和生產(chǎn)力的更廣泛目標(biāo)相一致。這次收購(gòu)的一個(gè)重要意義可能是實(shí)現(xiàn)未來(lái)人與 AI agent 在屏幕前的共同協(xié)作。
3)Global Illumination(2023 年 8 月收購(gòu)):
Global Illumination 是一家專注于創(chuàng)意工具、基礎(chǔ)設(shè)施和數(shù)字體驗(yàn)的公司,由來(lái)自 Instagram、Facebook、YouTube、Google、Pixar 和 Riot Games 的前關(guān)鍵設(shè)計(jì)師創(chuàng)立。收購(gòu) Global Illumination 的目的是增強(qiáng) OpenAI 的核心產(chǎn)品,包括 ChatGPT。此外我們也猜想,他們之前的產(chǎn)品也可能適合成為 virtual agent 的進(jìn)行強(qiáng)化學(xué)習(xí)的交互環(huán)境。
Anthropic
交互:Artifact 時(shí)軟件生成 task engine 的早期形態(tài)
Artifacts 是我們使用 Claude 產(chǎn)品時(shí)會(huì)出現(xiàn)的動(dòng)態(tài) workspace,能把我們需要完成的任務(wù)轉(zhuǎn)換成代碼,并用代碼的方式來(lái)實(shí)現(xiàn)基礎(chǔ)的任務(wù)。我們可以認(rèn)為它是 OpenAI Code Interpreter 基礎(chǔ)上對(duì) UI/UX 的創(chuàng)新。
Claude 團(tuán)隊(duì)給 Artifact 的未來(lái)定位是企業(yè)團(tuán)隊(duì)將能夠安全地將他們的知識(shí)、文檔和正在進(jìn)行的工作集中在一個(gè) Artifact 這個(gè) workspace 中進(jìn)行交互,而 Claude 則根據(jù)需求作為 copilot 對(duì)這個(gè)workspace 進(jìn)行交互。所以可以認(rèn)為 Artifact 是 Anthropic 團(tuán)隊(duì)對(duì)下一代 AI-native 協(xié)作平臺(tái)和工作流的想象。
在實(shí)際使用場(chǎng)景中,現(xiàn)在還是開(kāi)發(fā)者使用 artifact 制作初步代碼比較多:
? 示例一:一行 prompt 制作日歷 app,artifact 直接呈現(xiàn)出 code 和 UI,不需要自己動(dòng)手寫基礎(chǔ)代碼
? 示例二:上傳一本書(shū)后,邊讀邊通過(guò) artifact 總結(jié)每一頁(yè)的內(nèi)容
Agent 探索:
還在 tool use 階段,未來(lái) roadmap 可期
Tool use 能力的提升標(biāo)志著 Anthropic 在 agent 技術(shù)上比較穩(wěn)健的一次進(jìn)步。2024 年 5 月,Anthropic 為 Claude 3 系列模型增加了與外部工具和 API 交互的能力,這一進(jìn)展大大拓展了模型的實(shí)用性。這項(xiàng)功能使得 Claude 能夠執(zhí)行更為復(fù)雜和實(shí)際的任務(wù),不再局限于純粹的文本生成。用戶只需用自然語(yǔ)言描述他們的需求,Claude 就能智能地選擇合適的工具并執(zhí)行相應(yīng)的操作。這種自然語(yǔ)言接口大大降低了使用門檻,使得即使非技術(shù)背景的用戶也能輕松地利用 AI 的強(qiáng)大能力。
Anthropic 展示的 agent 應(yīng)用場(chǎng)景涵蓋了多個(gè)領(lǐng)域,充分體現(xiàn)了其技術(shù)的廣泛適用性和潛力。首先,在數(shù)據(jù)處理方面,Claude 能夠從非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化數(shù)據(jù),這對(duì)于自動(dòng)化數(shù)據(jù)錄入和分析具有重要意義。其次,Claude 可以將自然語(yǔ)言請(qǐng)求轉(zhuǎn)換為結(jié)構(gòu)化 API 調(diào)用,這大大簡(jiǎn)化了系統(tǒng)間的交互過(guò)程。在信息檢索方面,Claude 能夠通過(guò)搜索數(shù)據(jù)庫(kù)或使用 Web API 來(lái)回答問(wèn)題,提供即時(shí)且準(zhǔn)確的信息。對(duì)于日常任務(wù)自動(dòng)化,Claude 可以通過(guò)軟件 API 執(zhí)行簡(jiǎn)單任務(wù),提高工作效率。
其中最特別的一個(gè)例子是 Claude 能夠協(xié)調(diào)多個(gè)快速子 agent 來(lái)完成細(xì)粒度任務(wù),這是復(fù)雜任務(wù)的分解和并行處理的未來(lái)方向。這種階梯式的模型分工方法可能涉及多個(gè)專門化的 agent 協(xié)同工作,每個(gè) agent 負(fù)責(zé)特定的任務(wù)或領(lǐng)域。這種架構(gòu)不僅能提高整體系統(tǒng)的效率和靈活性,還能更好地處理復(fù)雜的多步驟任務(wù)。通過(guò)讓不同的子代理各司其職,系統(tǒng)可以更有效地利用資源,并且能夠根據(jù)任務(wù)的需求動(dòng)態(tài)調(diào)整工作流程。
Anthropic 在官網(wǎng)公布了他們的未來(lái)方向,其中他們對(duì) agent 的長(zhǎng)期規(guī)劃是宏大而全面的:
? 知識(shí)融合(結(jié)合多個(gè)領(lǐng)域的交叉知識(shí))
? 超越現(xiàn)有訓(xùn)練數(shù)據(jù)、本科生水平的知識(shí)推理
? 自主執(zhí)行端到端科研項(xiàng)目
? 提出新假設(shè)和設(shè)計(jì)的能力
? 隱性知識(shí)(只能通過(guò)在實(shí)驗(yàn)室中的學(xué)徒制獲得的那種知識(shí))
? 需要做出連續(xù)決策才能實(shí)現(xiàn)的 long horizon task
? 自動(dòng)化數(shù)據(jù)分析
這些能力的實(shí)現(xiàn)都會(huì)和我們期待的 agent 有著方向上的匯合。仔細(xì)看會(huì)發(fā)現(xiàn) Anthropic 對(duì) AI 的期待很多都落在軟件和科學(xué)發(fā)現(xiàn)上。
03. 人才更新
OpenAI
OpenAI 依舊保持快速增長(zhǎng)狀態(tài),已經(jīng)從純粹的 AI Lab 演進(jìn)至更加工程、產(chǎn)品、收入導(dǎo)向的公司。公司目前有 400 名以上的 Researcher,超過(guò) 1200 位非研究類員工,包含工程、銷售、產(chǎn)品、后臺(tái)支持等,對(duì)比 2023 的 770 人增加近乎一倍。
從招聘?jìng)?cè)重點(diǎn)看,近三個(gè)月,有 460 人新加入 OpenAI,其中 Member of Technical Staff 依舊占主要,共有 130 人,偏工程類員工占整體 MTS new hire 的 80%。Go-to-market 是招聘數(shù)量第二多的團(tuán)隊(duì),新招聘 46 人。產(chǎn)品新招聘 24 人,其中包括新加入的 CPO Kevin Weil。
離開(kāi)的關(guān)鍵人才
? Ilya 于 2024 年 5 月與 SuperAlignment Co-lead Jan Leike 接連離職。Ilya 在離職后創(chuàng)辦了 SSI,致力于構(gòu)建安全超級(jí)智能 。而 GPT-4 的核心人物 Jakub 接任了 Chief Scientist 的角色。Ilya 對(duì)于 OpenAI 是指明方向的靈魂人物。但也有觀點(diǎn)是 Ilya 的遠(yuǎn)見(jiàn)對(duì)于 OpenAI 初期帶來(lái)很大幫助,但在 OpenAI 已經(jīng)明確遠(yuǎn)期方向后,Illya離開(kāi)的影響并不大。
? 同樣為 OpenAI 早期靈魂人物的 Greg 會(huì)休假至年底后再回歸公司。
? Andrej Karpathy 在加入 OpenAI 一年后于 2024 年 2 月離開(kāi) OpenAI,離職后創(chuàng)辦 Eureka Labs 的 AI 課程教育公司,自己擔(dān)任講師幫助學(xué)生更好理解 AI 與 LLM 訓(xùn)練。
? John Schulman 離開(kāi) OpenAI 加入 Anthropic。晉升為 alignment lead 前,John 曾是 reinforcement learning team lead,是 RLHF 的開(kāi)創(chuàng)者,確定了 OpenAI RL 的路線。John 是 OpenAI 創(chuàng)始團(tuán)隊(duì)之一,師從 Pieter Abbeel。離開(kāi) OpenAI 后,John 加入 Anthropic。
? Jan Leike 跟隨 Ilya 一同離職后加入 Anthropic,繼續(xù)負(fù)責(zé) Alignment 方向工作。John Schulman 和 Jan Leike 的加入意味著 OpenAI 的研究路線圖對(duì)于 Anthropic 團(tuán)隊(duì)幾乎是一張明牌。
? Peter Deng 作為 Product VP 離開(kāi) OpenAI,Kevin Weil 作為 OpenAI 新加入的 CPO 繼續(xù)領(lǐng)導(dǎo) OpenAI 的產(chǎn)品工作。Kevin 在加入 OpenAI 前為 Meta Diem、Instagram 的 VP of product,在 Instagram 任職期間幫助 Instagram 在與 Snap 競(jìng)爭(zhēng)階段獲得優(yōu)勢(shì)。從 Peter 的離職也能感受到 OpenAI 對(duì)新產(chǎn)品開(kāi)發(fā)落地的激進(jìn)程度。
? Aleksander Madry 于一年前從 MIT 教職暫時(shí)離開(kāi),加入 OpenAI 創(chuàng)辦 Preparedness 團(tuán)隊(duì),目標(biāo)是通過(guò)理論研究幫助 OpenAI 提前控制可能發(fā)生的重大風(fēng)險(xiǎn)。Aleksander 于 2024 年 7 月離開(kāi),接任者為 Joaquin Qui?onero Candela,加入 OpenAI 半年時(shí)間,先前在 Meta 帶領(lǐng) Responsible AI 團(tuán)隊(duì)近九年。
? Jeffrey Wu 是 GPT- 2 的核心貢獻(xiàn)者,參與了 GPT 的可解釋性、可拓展監(jiān)督方向的工作。也作為核心參與了 InstructGPT 這一 RLHF 的重要項(xiàng)目。Jeffrey 于 OpenAI 任職 6 年,于 2024 年 7 月離職,加入 Anthropic。
? Yuri Burda 是 OpenAI reasoning team 的創(chuàng)始成員之一,負(fù)責(zé) OpenAI 的數(shù)學(xué)方向研究,并于早期項(xiàng)目:Dota、Codex 中有核心貢獻(xiàn)。離開(kāi) OpenAI 后 Yuri 加入 Anthropic。
值得關(guān)注的新團(tuán)隊(duì)和崗位
我們也觀察到 OpenAI 出現(xiàn)了一些新的小組:
1)Solution Architect
在 Success Team 下新增了 Solutions Architect 團(tuán)隊(duì),隸屬于 Success Team 下。目前整體團(tuán)隊(duì)大約 20 人,均為一年內(nèi)加入 OpenAI,對(duì) Enterprise 提供整體部署解決方案。Solutions Architect 團(tuán)隊(duì)源于 OpenAI 的策略調(diào)整:OpenAI 為了防御 Azure 捆綁銷售策略下的折扣定價(jià),承諾可以為大客戶根據(jù)需求定制軟件。
2)集群硬件
OpenAI 從 0 到 1 搭建了新的硬件團(tuán)隊(duì)。從團(tuán)隊(duì)配置看,更像是計(jì)劃搭建數(shù)據(jù)中心集群所需要的人才。目前硬件團(tuán)隊(duì)還是一個(gè)不到 10 人的小團(tuán)隊(duì),由 Richard Ho 帶領(lǐng)。Richard 先前于 Google 任職近十年,是 Google TPU 的 Senior Engineer Director。先前有報(bào)告提及 OpenAI 至少要等到 2025 年才可以自己開(kāi)發(fā)芯片,并且目前在與博通商討合作設(shè)計(jì)的形式,Richard 做為 Google TPU 的負(fù)責(zé)人,在 OpenAI 的定位會(huì)是 lead 起 co-design 任務(wù)的角色。
Richard 團(tuán)隊(duì)內(nèi),Reza Khiabani 先前于 Tesla Dojo、Google TPU 負(fù)責(zé)數(shù)據(jù)中心液冷方向工作。Xin Li 先前于 Google 負(fù)責(zé)數(shù)據(jù)中心電源工作。
3)投資了 Opal 團(tuán)隊(duì)
此外,消費(fèi)硬件層面,OpenAI 于 2024 年 8 月投資了 Opal,有可能在之后一起合作 AI 硬件。Opal 的產(chǎn)品為高清攝像頭,并且十分重視設(shè)計(jì)。
Opal 于 2020 年成立,是一個(gè) 15 人的小團(tuán)隊(duì)。創(chuàng)始團(tuán)隊(duì)為 Uber 背景。CEO Veeraj Chugh 在創(chuàng)辦 Opal 前于 Uber 任職 3 年,先后負(fù)責(zé) Uber Freight、Uber New Mobility 的產(chǎn)品運(yùn)營(yíng)工作。Co-founder Stefan Sohlstrom 是設(shè)計(jì)背景出身,2014 年作為第 5 號(hào)員工加入 Plaid,擔(dān)任 Plaid 的 Head of Design。2017 年開(kāi)始于 Uber Freight 從設(shè)計(jì)職責(zé)轉(zhuǎn)換成產(chǎn)品經(jīng)理,成為 Uber Freight Shipper Platform 的產(chǎn)品 Head。
4)Model Behavior scientist
對(duì)于 Model Behavior 研究人員的招募可能揭示 OpenAI 希望增強(qiáng)模型的可控性并且希望能夠發(fā)展新的交互方式,同時(shí)提升模型的創(chuàng)造能力。
5)mid-training scientist
Mid-training 已經(jīng)被正式定義為一個(gè)新的訓(xùn)練階段。其主要環(huán)節(jié)可能包括一些比較接近模型基本能力的 alignment,與 human feedback 離得相對(duì)遠(yuǎn)、更靠前。
Anthropic
2024 年以來(lái),公司人數(shù)從 300 人增加至 500 人左右。2024 起,公司招聘共 180 名新的 Member of Technical Staf,使 Anthropic 整體 Member of Technical 數(shù)量達(dá)到約 260 人,其中 90 名 Researcher,210 名 Engineer。Anthropic 的第二大招聘重心為產(chǎn)品團(tuán)隊(duì),2024 年前,Anthropic 的產(chǎn)品團(tuán)隊(duì)共 10 人,而今年已經(jīng)是接近 30 名,包含產(chǎn)品經(jīng)理、Product Partnerships / Marketing 相關(guān)員工的團(tuán)隊(duì)。
Anthropic 和 OpenAI 相比更看重 Alignment、可解釋性、AI 社會(huì)影響三個(gè)方向研究,也是 Anthropic 官網(wǎng)上 Research 部分的三個(gè)主要構(gòu)成部分。
可解釋性團(tuán)隊(duì)由 Shan Carter 帶領(lǐng),現(xiàn)已經(jīng)是 20 余人的團(tuán)隊(duì)。Shan 先前于 OpenAI、Google Research 工作,主要負(fù)責(zé)可解釋性方向研究,曾與 Co-founder Chris Olah 于 Google 時(shí)參與 Google 重要可解釋性研究:The building blocks of interpretability。
可解釋性團(tuán)隊(duì)在 Claude3 發(fā)布后發(fā)了一篇新論文:Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet,突破了模型的透明度并且建立了新解決黑盒問(wèn)題的機(jī)制。
除了前面提到的幾位從 OpenAI 離職的幾位早期重要 researchers 之外,還有這樣幾位重要 OpenAI / DeepMind 出身的重要科學(xué)家加入:
? Pavel Izmailov 自 2023 年 6 月加入 OpenAI,工作一年后離開(kāi)加入 Anthropic。于 OpenAI 期間 Pavel 是 superalignment 的成員,加入 Anthropic 也有大概率與 Jan 繼續(xù)合作 alignment 方向工作。
? Steven Bills 于 2022 年 3 月加入 OpenAI,是 superalignment 團(tuán)隊(duì)的成員,參與了 OpenAI 發(fā)布 GPT 后的可解釋性研究:Language models can explain neurons in language models。
? David Choi:David 于 2017 年至 2023 年 12 月于 Deepmind 擔(dān)任 Staff Research Engineer。先前是 Deepmind 的 AlphaCode Co-lead,是 Deepmind 在 2022 年時(shí)的核心代碼生成模型。David 在 agent 方向的研究可以追溯至 2019 年與 xAI 的 Igor 共為一作的 AlphaStar 論文。
? Jascha Sohl-Dickstein:Diffusion model 核心一作,曾是 Google 的首席科學(xué)家。于 2024 年 1 月加入 Anthropic,此外,Jascha 曾發(fā)布了 Score-based SDE,構(gòu)建了生成 Diffusion 模型理論的框架。
Anthropic 產(chǎn)品團(tuán)隊(duì)最大的更新是新 CPO 的加入。Mike Krieger 原先是 Instagram 的 Co-founder & CTO,經(jīng)歷了在 Instagram 被收購(gòu)后從只有 6 位全棧工程師成長(zhǎng)到包含 300 位工程師的 full function 工程團(tuán)隊(duì)的過(guò)程。Mike 于 2021 年時(shí)與 Instagram CEO Kevin 開(kāi)始做 AI 新聞推送創(chuàng)業(yè) ARTIFACT,于 2024 年 5 月停止項(xiàng)目,加入 Anthropic。Mike 本身的經(jīng)歷和 Anthropic 經(jīng)歷了只有 80+人的小團(tuán)隊(duì),但創(chuàng)造出了 SOTA 模型,之后迅速擴(kuò)張的過(guò)程非常相符。加入 Anthropic 后 Mike 帶領(lǐng) Claude APP,以及企業(yè)服務(wù)的產(chǎn)品工程、管理、設(shè)計(jì)工作。
Anthropic 的產(chǎn)品團(tuán)隊(duì)自 2024 年也快速擴(kuò)張,目前 30 位產(chǎn)品成員大多數(shù)來(lái)自于 Stripe、Google、AWS 三家誕生了出色的 enterprise 產(chǎn)品的公司。
Artifacts
Artifacts 是 Mike 加入 Anthropic 后負(fù)責(zé)的新產(chǎn)品,外部對(duì) Artifacts 的評(píng)價(jià)是“又懂模型、又懂產(chǎn)品的人做出的產(chǎn)品”,對(duì)比 OpenAI “互聯(lián)網(wǎng)風(fēng)格”的產(chǎn)品會(huì)更 AI-native。而 Artifacts 的名字和 Logo,都與 Mike 先前創(chuàng)業(yè)項(xiàng)目 ARTIFACT 高度相似。
Mike 的 Artifact 項(xiàng)目
Artifacts 與 Claude 的 Logo
與 Mike 一同加入的還有先前共創(chuàng) Artifact 的工程師 Justin Bisignano。Justin 2020 年加入 Instagram 團(tuán)隊(duì)任安卓工程師,所寫的代碼支持了 20 億用戶。2022 年 7 月加入 Artifact 任職至 2024 年 4 月后加入 Anthropic,負(fù)責(zé) Claude 的產(chǎn)品工程方向工作。
04. 研究更新
OpenAI
Prover-Verifier Games improve legibility of language model outputs
新的訓(xùn)練方法:OpenAI 開(kāi)發(fā)了一種稱為”Prover-Verifier Games”的新訓(xùn)練方法,旨在平衡模型的性能和可讀性。
解決關(guān)鍵問(wèn)題:這種方法解決了之前模型在性能和可讀性之間存在的權(quán)衡問(wèn)題。過(guò)去,注重可讀性可能導(dǎo)致幻覺(jué)(hallucination),而過(guò)度注重正確性則可能降低可讀性。
訓(xùn)練機(jī)制:
? 使用一個(gè)強(qiáng)大的模型(prover)和一個(gè)較弱的模型(verifier)。
? verifier 經(jīng)過(guò)訓(xùn)練,預(yù)測(cè) prover 生成解決方案的正確性。
? prover 被指示扮演”helpful”或”sneaky”角色,分別生成正確或錯(cuò)誤的高分解決方案。
? 通過(guò)多輪訓(xùn)練,verifier 不斷學(xué)習(xí)識(shí)別錯(cuò)誤解決方案,迫使 prover 探索新策略。
意義:
? 通過(guò) multi-agent 分工的方式實(shí)現(xiàn),在減少人類直接干預(yù)的情況下,實(shí)現(xiàn)對(duì)超智能 AI 系統(tǒng)的對(duì)齊。
CriticGPT, Finding GPT-4’s mistakes with GPT-4
? 基于 GPT-4 開(kāi)發(fā)的模型,旨在發(fā)現(xiàn) ChatGPT 代碼輸出中的錯(cuò)誤。
? 實(shí)驗(yàn)表明,使用 CriticGPT 輔助的人在代碼審查中,60%的情況下表現(xiàn)優(yōu)于沒(méi)有輔助的人。
研究意義:
? OpenAI 正在努力將類似 CriticGPT 的模型集成到他們的 RLHF(Reinforcement Learning from Human Feedback)標(biāo)注流程中。
? 這將為他們的訓(xùn)練人員提供明確的 AI 輔助。
局限性和未來(lái)發(fā)展方向:
? 目前 CriticGPT 主要針對(duì)較短的 ChatGPT 答案進(jìn)行訓(xùn)練。
? 未來(lái)需要開(kāi)發(fā)能夠幫助訓(xùn)練人員理解長(zhǎng)期和復(fù)雜任務(wù)的方法,以便監(jiān)督未來(lái)的 AI 代理。
? 模型仍存在幻覺(jué)問(wèn)題,有時(shí)訓(xùn)練人員會(huì)因這些幻覺(jué)而做出錯(cuò)誤標(biāo)注。
? 當(dāng)前研究主要關(guān)注可在一處指出的錯(cuò)誤,未來(lái)需要解決分散在多個(gè)部分的錯(cuò)誤。
? CriticGPT 的輔助能力有限:對(duì)于極其復(fù)雜的任務(wù)或響應(yīng),即使是有模型輔助的專家也可能無(wú)法正確評(píng)估。
長(zhǎng)期目標(biāo):
? 開(kāi)發(fā)能夠處理長(zhǎng)文本的能力。
? 最終目標(biāo)是使用這種技術(shù)來(lái)監(jiān)督 AI agent 的訓(xùn)練。
Anthropic
Scaling Monosemanticity, Extracting Interpretable Features from Claude 3 Sonnet
? 使用機(jī)器學(xué)習(xí)中“dictionary learning”的方式,并借助訓(xùn)練大模型的 scaling law techniques,將這個(gè)技術(shù)沿用到大模型上,從中 isolate 出大模型激活神經(jīng)元的 pattern,解讀模型激活神經(jīng)元的方式。文章中提到探索了幾種能力:
◎ 針對(duì)不同 entities(景點(diǎn)如 golden gate,抽象概念如程序 bugs,gender bias),神經(jīng)元被激活,并且是 multilingual 和 multim – modal 的。
◎ 可以根據(jù)激活神經(jīng)元方式的不同,計(jì)算特征之間的“distance”,做近鄰計(jì)算。
◎ 可以人為改變特征被激活的方式,會(huì)直接影響模型生成的答案。也能從中發(fā)現(xiàn)一些模型可能被潛在激活的不好的方向,為之后監(jiān)控這些潛在威脅 提供了工具。
? Anthropic 真正做到了 interpretability 的 scale-up:使用 sparse autoencoder 來(lái)做到解讀神經(jīng)網(wǎng)絡(luò)中的 feature。之前主要使用數(shù)學(xué)統(tǒng)計(jì)模型無(wú)法 scale-up,sparse autoencoder 的稀疏性可以很好的捕捉到一些關(guān)鍵點(diǎn),其他不關(guān)鍵信息在 vector 中都不會(huì)激活。
? 對(duì)比 OpenAI 的可解釋性工作:
◎ OpenAI 的研究較為淺層,主要捕捉 LLM 的行為模式;Anthropic 的研究更深入,挖掘到了不同單詞和實(shí)體在神經(jīng)元激活上的規(guī)律。
◎ Anthropic 的研究通過(guò)干預(yù)可以直接改變模型的輸出結(jié)果,而 OpenAI 的研究主要停留在觀察層面。
這幾篇研究可以看出一些對(duì) RL 方向研究的端倪,也可以發(fā)現(xiàn) Anthropic 團(tuán)隊(duì)對(duì)可解釋性的追求是更強(qiáng)的,很可能他們未來(lái)會(huì)給予可解釋性設(shè)計(jì)更多的模型可控性feature。我們也期待這些研究能帶來(lái)下一波 AI-native use case 的解鎖。
作者:Cage,hanbo
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!