The Second Half:一位 OpenAI 科學家的 AI 下半場啟示錄

0 評論 780 瀏覽 2 收藏 27 分鐘

隨著人工智能技術的飛速發(fā)展,我們正站在AI發(fā)展的新起點上。本文深入探討了AI發(fā)展的下半場,即從解決具體問題轉向定義問題、從模型訓練轉向模型評估的新階段,供大家參考。

本篇內容是 OpenAI Agent Reseacher 姚順雨對于 AI 下半場的解讀,授權海外獨角獸編譯。

在 OpenAI o1 模型發(fā)布前,我們猜想 LLM 迎來 RL 新范式,AGI 路線也隨之進入下半場。如果說 LLM 的 pre-training 是對已有知識進行壓縮學習,RL 則更需要和環(huán)境交互產生新知識。相比 pre-training,RL 的算法和環(huán)境搭建更復雜,頭部 Labs 對 RL 的探索也尚未收斂。我們該如何思考 RL 的意義,如何更好理解 AI 的下半場? Shunyu 的這篇文章帶來了很多啟發(fā)。他認為在 AI 訓練中,定義問題將比解決問題更重要,evaluation 將比 training 更重要,enviornment 和 priors 的重要性被低估了。

有評論稱這篇文章是 Bitter Lesson 級別的存在,或許是因為和 Bitter Lesson 類似,這篇文章也試圖從 high level 指出 AI 研究中一種思維范式的徹底改變。Bitter Lesson 啟發(fā)了大家從“人類指導 AI” 轉向算力和數(shù)據(jù)的 scaling,而 The Second Half  告訴大家在 RL 全面到來時,我們應該徹底重新思考問題定義和真實用例的 evaluation。

姚順雨本科畢業(yè)于清華姚班,是姚班聯(lián)席會主席,2024 年從 Princeton 博士畢業(yè)后加入 OpenAI 擔任 Research Scientist,參與了 OpenAI 的 Computer-Using Agent,Deep Research 等多個產品項目。他是 Agent 領域的最前沿探索者,這個領域不少最重要的 framework 和 benchmark 都來自他 Phd 期間的工作:ReAct、Tree of Thought、SWE_Bench。

這篇 Blog 主要內容來自姚順雨在 CS 224N 和 Columbia 大學所做的演講,初稿由 OpenAI Deep Research 閱讀演講 Slides 后完成。

01.我們正處于AI 的半場時刻

數(shù)十年來,AI 的核心一直在于開發(fā)新訓練方法和模型。這種路徑確實有效:打敗國際象棋和圍棋世界冠軍、在 SAT 和律師資格考試上超過大部分人、贏得 IMO(國際數(shù)學奧林匹克)和 IOI (國際信息學奧林匹克)金牌,這些寫進 AI 歷史書里的里程碑——DeepBlue,AlphaGo,GPT-4 和 o 系列,都來自底層訓練方法的創(chuàng)新,search,deep RL,scaling,reasoning。一切都在隨著時間持續(xù)進步。

那么現(xiàn)在到底有什么變了?

簡單來說,強化學習(reinforcement learning, RL)終于有效了。更確切地說,RL 終于有了泛化能力。經過幾次彎路,也跨過了一系列重要里程碑后,我們終于找到了正確的配方(recipe),能通過語言模態(tài)和推理能力來解決廣泛的強化學習任務。

即便在一年前,如果你告訴大多數(shù) AI 研究者,有一種 recipe 能同時應對軟件工程、創(chuàng)意寫作、IMO 級別的數(shù)學問題、鼠標鍵盤操作以及長篇問答——他們只會嘲笑你在幻想。這些任務每一項都極其艱難,許多研究者整個博士期間只專注于其中一個細分領域。

但今天這件事的確發(fā)生了。

接下來會發(fā)生什么?

AI 的下半場——從現(xiàn)在開始——會從解決問題轉向定義問題。在這個新階段,Evaluation(模型評估) 會比 Training (模型訓練)更重要。我們不再只是問,“我們能不能訓練模型來解決 X ?” 而是開始問:“我們究竟應該訓練模型來做什么,如何衡量真正的進展?”要想贏得 AI 的下半場,我們必須及時轉變心態(tài)和技能,也許要更像產品經理。

02.什么是 AI 上半場

要理解 AI 上半場的意義,可以看看這個階段的 winners。

先來想一個問題,你認為迄今最具影響力的 AI 論文有哪些?我在 Stanford CS 224N 的課堂現(xiàn)場提出了這個問題,大家的答案并不意外:Transformer、AlexNet、GPT-3 等。這些論文的共同點在于它們提出了訓練更強模型的一些基礎性突破,但同時也在一些 benchmark 上展示了顯著的性能提升,從而得以發(fā)表。

CS 224N 是 Stanford 深度學習與 NLP 主題的公開課,是過去十年 AI 領域的很多學生和學者入門 NLP 最好的課程之一。由 Chris Manning 教授主講。
Chris Manning 是 Stanford 語言學和計算機科學系首任 Thomas M. Siebel 機器學習教授、人工智能實驗室(SAIL)主任和以人為本人工智能研究所(HAI)聯(lián)合創(chuàng)始人,他還是 ACM、AAAI 和 ACL 的 Fellow,并曾于 2015 年擔任 ACL 主席,是自然語言處理和機器學習領域的先鋒人物。

這些經典論文還有一個潛在共性:它們幾乎都是訓練方法或模型,而不是 benchmark 或者 tasks。即便是被認為是最有影響力的基準數(shù)據(jù)集 ImageNet,它的引用量也不到 AlexNet 的三分之一。這種差距在其他案例中更加明顯。

比如,Transformer 使用的主要 benchmark 是 WMT’14,WMT’14 的 workshop report 引用量大約為 1300 次,而 Transformer 本身的論文引用早已突破 16 萬次。

這些對比形象地說明了 AI 上半場是關注于構建新的模型和訓練方法,evaluation 和 benchmark 則位于第二位,盡管對于學術發(fā)表體系而言,后者是十分必要的。

為什么會出現(xiàn)這種現(xiàn)象?

一個重要原因是,在 AI 上半場,訓練方法比定義 tasks 更難也更令人興奮。從零開始發(fā)明一種全新的算法或模型架構,比如反向傳播算法、卷積神經網(wǎng)絡(AlexNet),或是 GPT-3 所用的 Transformer,都需要非凡的洞察力和工程能力。

相比之下,為 AI 定義 tasks 往往顯得更直接:我們只是把人類已經在做的事情,比如翻譯、圖像識別或下棋,轉化為 benchmark,這個過程幾乎不需要太多洞察,甚至不需要多少工程工作。

訓練方法往往比具體任務更通用、適用范圍更廣,因此顯得格外有價值。比如,Transformer 架構最終推動了 CV、NLP、RL 等多個領域的進展,影響范圍遠遠超出最初驗證它效果的 WMT’14 這個翻譯數(shù)據(jù)集。一個出色的新訓練方法往往能在多個 benchmark 上取得較好效果,因為它足夠簡單、通用,它的影響也因此會超越某個具體任務。

過去數(shù)十年來都是訓練方法論的創(chuàng)新先行,催生了許多改變世界的理念和突破,并通過在各個領域不斷提升的 benchmark 表現(xiàn)出來。

那么,為什么今天這件事會發(fā)生改變?因為這些理念和突破的積累,在解決任務方面帶來了本質改變,造就了一套真正有效的 recipe。

03.AI 的有效配方

這套 recipe 到底是什么?recipe 的關鍵成分并不讓人意外:大規(guī)模的語言 pre-training,數(shù)據(jù)和算力的 scaling,reasoning 和 acting 的理念。這幾個詞乍一聽很像今天出現(xiàn)頻率極高的 buzzwords。

為什么將這幾個詞稱為 recipe ?我們可以從 RL 的角度來看。

RL 通常被認為是 AI 的“終極形態(tài)”,畢竟從理論上,它能夠保證在 game 中取勝,而在實踐上,幾乎所有 superhuman 水平的 AI 系統(tǒng)(比如 AlphaGo)都離不開 RL 的支撐。

game:在博弈論中,game 指的是所有在封閉環(huán)境中,有明確輸贏的博弈任務。

RL 領域有三個關鍵組成部分:算法(algorithm)、環(huán)境(environment)和先驗知識(priors)。

很長時間以來,RL 研究者主要關注算法,比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等,也就是 agent 如何學習的這一核心機制。

  • DQN:Deep Q-Network,即深度 Q 網(wǎng)絡,是深度強化學習的一種重要算法,使用深度神經網(wǎng)絡來逼近Q 值函數(shù),并通過最大化 Q 值來選擇最優(yōu)動作,其中 Q 值計算的是 Agent 執(zhí)行某個行動帶來的價值變化。
  • TD-learning:Temporal difference learning,即時序差分學習,結合了動態(tài)規(guī)劃(Dynamic Programming)和蒙特卡羅方法(Monte Carlo)的優(yōu)點。
  • Actor-critic:即演員-評論家算法,是一種結合策略梯度和時序差分學習的強化學習方法,包括演員(Actor,負責行動)和評價者(Critic,負責評價)用神經網(wǎng)絡分工進行博弈。
  • PPO:Proximal Policy Optimization,即近端策略優(yōu)化,是 OpenAI 在 2017 年提出的一種強化學習算法,被認為是目前強化學習領域的 SOTA 方法,也是適用性最廣的算法之一。PPO 簡化了以前的策略梯度算法,通過幾個關鍵技術提高了訓練的穩(wěn)定性和效率。這是之前 RLHF 最常用的 RL 算法,在 reasoning model 場景下 Deepseek 提出的 GRPO 算法正在取代成為主流。
  • TRPO:Trust Region Policy Optimization,即置信域策略優(yōu)化,是一種用于強化學習的策略優(yōu)化算法。

相比之下,環(huán)境(environment)和先驗知識(priors)往往被當作既定條件,或者被盡可能簡化處理。例如,Sutton 和 Barto 的經典教材幾乎講的都是算法,對于環(huán)境和先驗知識幾乎只字未提。

但在深度強化學習時代,環(huán)境在實踐中的重要性凸顯:一個算法的效果往往高度依賴于它所開發(fā)和測試的環(huán)境。如果忽視環(huán)境,可能會導致我們構建的最優(yōu)算法只在過于簡化的環(huán)境中有效。

那么,為什么我們不先思考清楚真正想要解決的環(huán)境,再去尋找最適合它的算法?

OpenAI 最初就是這么計劃的。

OpenAI 先是打造了 Gym,一個用于各類 game 的標準 RL 環(huán)境,接著又推出了 World of Bits 和 Universe,試圖將互聯(lián)網(wǎng)或計算機變成一個 game。這個設計很好,一旦我們可以將所有數(shù)字世界轉化為 environment,再用 RL 算法來解決問題,我們就能實現(xiàn)數(shù)字領域 AGI。

Gym:Gym 是 OpenAI 在 2016 年 4 月發(fā)布的一個用于開發(fā)和比較 RL 算法的工具包,提供了多種預定義環(huán)境,以便研究者和開發(fā)者可以在相同的 benchmarks 下測試他們的算法。
World of Bits 和 Universe:OpenAI 的 World of Bits 是基于 Universe 的訓練平臺,也是 Universe 項目的前身。Universe 發(fā)布于 2016 年 12 月,是一個能在幾乎所有環(huán)境中衡量和訓練 AI 通用智能水平的開源平臺,目標是讓 AI Agent 能像人一樣使用計算機。

這個設計很好,但并不完全奏效。雖然 OpenAI 取得了巨大的進展,比如利用 RL 解決了 Dota、機器人手等問題,但還沒有解決 computer use 或 web navigation ,并且,在一個領域表現(xiàn)出色的 RL agent 并不能遷移到另一個領域。某些關鍵因素仍然缺失。

直到 GPT-2 或 GPT-3 出現(xiàn),我們才發(fā)現(xiàn)缺失的是先驗知識 (priors)。你需要進行大規(guī)模 pre-training,將常識和語言知識提煉到模型中,然后通過微調使其成為網(wǎng)絡 agent(WebGPT)或聊天 agent(ChatGPT),從而改變世界。

結果發(fā)現(xiàn),RL 中最重要的部分可能甚至不是 RL 算法或環(huán)境,而是先驗知識,而這些先驗知識的獲取方式與 RL 完全無關。

語言模型的 pre-training 為對話類任務提供了良好的先驗知識,但在控制計算機或玩電子游戲方面卻不夠理想。因為這些領域和互聯(lián)網(wǎng)的文本分布相差很大,直接在這些領域上做 SFT 或 RL 的泛化效果很差。

我是在 2019 年意識到的這個問題,當時 GPT-2 剛剛發(fā)布,我在它的基礎上做了 SFT 或 RL 來解決基于文本的 game,最終做出了 CALM。CALM 是世界上第一個基于 pre-training 語言模型構建的 agent,但它要花費上百萬步的 RL,才能在單一 game 中取得進展,而且無法遷移到其他 game 上。

雖然這正是 RL 的特點,對 RL 研究者來說并不意外,但我仍覺得很反常,因為人類可以輕松上手一款新游戲,而且在零樣本的前提下做得比 agent 更好。

這時,我迎來了人生中第一個頓悟時刻:人類之所以能泛化,是因為人類不僅能做“去 2 號柜子”、“用 1 號鑰匙打開 3 號箱子”或“用劍殺死地牢怪物”這類操作,還能思考:“地牢很危險,我需要一件武器。附近沒有武器,我需要在鎖著的柜子或箱子里找,3 號箱子在 2 號柜子里,那我應該先去那里把柜子打開?!?

思考(thinking)或推理(reasoning)是一種很特殊的行為,它并不會直接改變外部世界,但卻擁有一個開放、無限組合的空間,我們可以想一個單詞、一句話、一段話,或者一萬個隨機英語單詞,但周圍環(huán)境不會立刻發(fā)生變化。

在經典 RL 理論中,reasoning 是一個糟糕的存在,因為它會讓決策變得不可能。比如,一個人需要從兩個盒子中選一個,其中一個裝著 100 萬美元,另一個是空的,這個時候預期收益是 50 萬美元?,F(xiàn)在如果我們往這個人面前放了無數(shù)個空盒子,那么他的預期收益就變成了 0。

但如果我們在  RL 環(huán)境的動作空間(Action Space)中加上 reasoning,我們就能利用語言模型 pre-training 中獲得的先驗知識進行泛化,并可以在不同的決策中靈活分配 test-time compute。

動作空間:不同的環(huán)境允許不同種類的動作,在給定的環(huán)境中,有效動作的集合被稱為動作空間(Action Space)。在離散動作空間(Discrete Action Space),agent 的動作數(shù)量是有限的,在連續(xù)動作空間(Continuous Action Space),動作是實值的向量。

這個過程很神奇,我會在未來專門寫一篇 blog 來講??梢酝ㄟ^ ReAct 這篇論文先了解我對 agent reasoning 的看法。

ReAct:ReAct 是姚順雨在 ReAct: Synergizing Reasoning and Acting in Language Models 中提出的框架,到今天還在 agent framework 中占有一席之地。

當下,我對于這件事的解釋是:雖然一個人面前被放置了無數(shù)個空盒子,但他在此之前,他已經在各種 game 中見過這些盒子,之前的這些選盒子的經驗能幫助他更好地識別出哪個盒子更可能裝著錢。

用一句抽象的話來說:語言通過 agent reasoning 來實現(xiàn)泛化(language generalizes through reasoning in agents.)。

一旦我們擁有了正確的 RL 先驗知識(語言 pre-training)和 environment(將語言推理作為行動),算法可能是最微不足道的部分?,F(xiàn)在我們有了 o 系列、R1、deep research、computer-using agent,未來還會有更多的成果。多么諷刺的轉折!

長期以來,RL 研究者更關心算法,遠勝于關心 environment ,幾乎沒有人關注先驗知識——所有的 RL 實驗本質上都是從零開始的,但我們繞了幾十年的彎路,才意識到也許我們的優(yōu)先級應該反過來。

但正如 Steve Jobs 所說:You can’t connect the dots looking forward; you can only connect them looking backward.

04.歡迎來到 AI 下半場

這套 recipe 在徹底改變 AI 的游戲規(guī)則,AI 上半場的游戲規(guī)則是:

  • 我們開發(fā)出新穎的訓練方法或模型,在各種 benchmarks 上取得更好的成果。
  • 我們創(chuàng)造出更難的 benchmarks,并繼續(xù)這個循環(huán)。

現(xiàn)在這個游戲規(guī)則正在被徹底改變,原因在于:

  • 這套 recipe 本質上已經把攻克 benchmark 的過程標準化、流程化了,我們不再需要太多新的想法。并且因為這套 recipe 具有較好的 scaling 和泛化能力,你為某個具體任務設計的全新方法可能只能帶來 5% 的提升,而下一代的 o 系列模型即使沒有專門針對這個任務訓練,也能帶來 30% 的提升。
  • 即使我們設計出了更難的 benchmark,它們也往往會很快(而且越來越快)被這套 recipe 攻克。我的同事 Jason Wei 做了一張精彩的圖,直觀地展示了這個趨勢。

那 AI 下半場應該做什么?如果新的訓練方法不再必要,更難的 benchmark 也會被越來越快地攻克,我們應該怎么做?

我認為我們需要從根本上重新思考“評估”(evaluation),這不僅意味著設計更新、更難的 benchmarks,而是要徹底質疑現(xiàn)有的評估方法,創(chuàng)造新的評估方法,這樣才能迫使我們發(fā)明超越現(xiàn)有有效的 recipe 的新方法。

但這很難,因為人類有慣性,人類很少去質疑最基礎的假設——你只是理所當然地接受它們,卻沒意識到它們其實只是“假設(assumptions)”,而不是“定律(laws)”。

用一個例子來說明這種慣性,假如你基于人類考試,發(fā)明出了一種史上最成功的 AI 評估方法之一。在 2021 年這也許是一個突破性的想法,但到了 3 年后,這一方法已被很多人使用,屬于非常常規(guī)的評估方法。那么你接下來會做什么?很可能是再設計一套更難的考試。

再比如,你已經成功解決了基礎的編程任務,那么你接下來會做什么?很可能是尋找更難的編程任務,直到達到 IOI 金牌的水平。

慣性是一種很自然的現(xiàn)象,但問題也正出在這里。AI 已經在國際象棋和圍棋上戰(zhàn)勝了世界冠軍,在 SAT 和律師資格考試中超過了大多數(shù)人類,達到了 IOI 和 IMO 金牌的能力,但至少從經濟或 GDP 的角度看,世界并沒有發(fā)生太大變化。

我將這個稱之為“效用問題(utility problem)”,我認為這是當下 AI 領域最重要的問題。

也許我們很快就能解決“效用問題”,也許還不能。但無論結果如何,這個問題背后的根源可能非常簡單:我們的評估方法在很多基本假設上與現(xiàn)實世界的設定不同。

舉兩個假設為例:

假設 1:評估應該是自動運行

通常一個 agent 會收到一個任務輸入,自動完成任務,最后得到一個任務獎勵。但現(xiàn)實中,agent 往往需要在整個任務過程中持續(xù)與人類互動,比如你不會給客服發(fā)一條長信息,然后等十分鐘,期待對方給出一條詳細答復來解決所有問題。當我們質疑這種評估假設時,就催生出了新的 benchmarks,要么將真實人類引入交互環(huán)節(jié)(例如 Chatbot Arena),要么引入用戶模擬(例如 tau-bench)。

假設 2:被評估的任務應該是獨立同分布(i.i.d.)的

如果你有一個包含 500 個任務的測試集,評估的時候,你會將每個任務獨立運行,最后對結果取平均,得出整體評分。

但現(xiàn)實中,任務往往是順序進行的,而不是并行的。一位 Google 的軟件工程師在逐步熟悉 google3 倉庫后,會越來越高效地解決問題,但一個軟件工程 agent 在同一個倉庫中解決多個問題,卻無法獲得這種熟悉度。我們顯然需要 long-term memory 的方法(事實上已經有一些相關嘗試),但學術界缺乏能合理體現(xiàn)這種需求的正確 benchmarks,甚至缺乏質疑 i.i.d. 這個被視為機器學習基礎假設的勇氣。

獨立同分布:Independent and identically distributed,即 i.i.d.,是機器學習中一個重要的假設,它表明訓練數(shù)據(jù)和測試數(shù)據(jù)遵循相同的概率分布。這個假設確保了在訓練集上訓練的模型能夠有效地在測試集上進行泛化,從而在未知數(shù)據(jù)上保持良好性能。

這些假設一直以來就是默認存在的。在 AI 上半場,基于這些假設來設計 benchmarks 是合理的,因為在智能水平較低時,提高智能通常就能提升效用?,F(xiàn)在在這些假設下,那套通用 recipe 已幾乎被保證奏效。那么 AI 下半場這個新游戲的玩法會是:

  • 我們需要開發(fā)面向現(xiàn)實世界效用的全新評估設定或 task;
  • 我們需要用 recipe 來攻克這些評估設定或 task,或用新組件來增強 recipe,然后重復這個循環(huán)。

這個游戲很難,因為它充滿了未知,但也格外令人興奮。AI 上半場的玩家專注于攻克電子游戲和標準化考試,AI 下半場的玩家則通過把智能轉化為有用的產品,打造出數(shù)十億甚至萬億美元的公司。

上半場充斥著各種不斷迭代的訓練方法和模型,而下半場在某種程度上對它們進行了篩選。通用 recipe 會輕松碾壓你的漸進式改進,你創(chuàng)造出能打破這套 recipe 的新假設。那時,你就能做出真正改變游戲規(guī)則的研究。

歡迎來到 AI 下半場!

作者:姚順雨,OpenAI researcher

編譯:海外獨角獸

本文由人人都是產品經理作者【海外獨角獸】,微信公眾號:【海外獨角獸】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!