久久无码三级片网站，亚洲欧美一级夜夜爽视频，免费人成视频在线观看视频，亚洲Ⅴa中文字幕无码毛片，天天躁日日躁狠狠躁中文字幕，在线天堂中文，人人综合亚洲无线码另类，亚洲欧美在线不卡

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

基于認(rèn)知理論的 AI 架構(gòu)探索

OneMoreAI

2024-09-30

0 評論 3431 瀏覽 9 收藏

49 分鐘

本文基于筆者于 2024年 6月在 AI 架構(gòu)理論方面實驗，大部分文字漢化自 8月中旬給 Llama 團(tuán)隊做的 Talk。恰好 OpenAI 最近發(fā)布的 o1 指向了相似的方向，于是將內(nèi)容科普化之后和大家討論。

原文鏈接（歡迎在原文 Comments 討論）：https://www.wangyulong.io/AI-17fada57edb946468a38dc71322a449f?pvs=4

當(dāng)前的 AI 系統(tǒng)，從最簡單的 Chat 模型、ChatGPT 類產(chǎn)品到各種復(fù)雜的 Agent，架構(gòu)的設(shè)計豐富多彩但又缺乏明確的方向。Scale up 成了唯一的主題，但 Scale up 的對象卻又充滿爭議（參數(shù)？數(shù)據(jù)？推理時間？）。

文中名為 Sibyl 實驗項目是筆者構(gòu)建的一套參考認(rèn)知理論的 AI 系統(tǒng)，在 GAIA（通用AI助手評測）榜單上取得第一的成績。Sibyl 這個名字來源于《Psycho-Pass》中由眾多人腦組成的多智能體系統(tǒng)。

代碼：https://github.com/Ag2S1/Sibyl-System

技術(shù)報告：https://arxiv.org/abs/2407.10718

1. 文字游戲

我們先看一個簡單的文字游戲：下圖中這是一個 5×7 的字母塊，請從里面抽出一個合法的句子。

這里可以暫停 10 秒思考下。

如果你把這個題目扔給 ChatGPT，它最終可能會告訴你這樣的答案（截止至 2024年8月27日 19:27:53）：

These gulls glide peacefully to my chair.

猛一看，好像是對的。但當(dāng)你仔細(xì)觀察就會發(fā)現(xiàn)有不少問題：

第二行的第一個字母 A 沒了
GULL 后面多了個 S
第四行的第一個字母 D 沒了

但當(dāng)你把這個問題扔給 Sibyl，它會給你這樣的答案：

THE SEAGULL GLIDED PEACEFULLY TO MY CHAIR

仔細(xì)檢查下，Sibyl 做對了！

我們可以把原題目中的字母染色來更好地理解一開始的字母塊。

ChatGPT 把 THE SEAGULL 理解成了 THERE GULLS，并且并沒有意識到它自己犯錯了。

而 Sibyl 底層和 ChatGPT 一樣都是基于 GPT-4o 這個模型的（并且 ChatGPT 用的模型通常比 API 的版本更先進(jìn)），為什么它能做對？

筆者并不認(rèn)為 Sibyl 有多么先進(jìn)的黑魔法，畢竟其只比 OpenAI、微軟、Huggingface 等團(tuán)隊的系統(tǒng)稍微好幾個點。

但只一次提交就獲得了 GAIA Benchmark (通用 AI 助手評測)第一，并且相比于其它方案更有理論的延展性和指標(biāo)的泛化性，讓我對其增強了信心。

2. 為什么要構(gòu)建 Sibyl

2.1 探索 AI 的潛力

現(xiàn)在能用到的 AI 類產(chǎn)品都為了成本和易用性妥協(xié)了很多：

控制模型參數(shù)量
更低的量化精度
更直接的、直覺性的、類似 System 1 的回答（也許并不是有意的產(chǎn)品設(shè)計）
更快的首 token 時間

如果我們放棄這些限制，不考慮成本和易用性，用最好的可用的模型，最有效的 reasoning trick，就為了得到最好的答案呢？

在這方面已經(jīng)有很多相關(guān)工作，從最早的 Scratchpads(https://arxiv.org/abs/2112.00114)，到后來的 Chain of Thought、Tree of Thought 等 X of Thought 類工作，都直覺性的在往這個方向走。

2.2 一個更好用的日常工具

ChatGPT 和 Perplexity 是非常好用的日常工具，但還不夠好，不夠滿足我個人的使用訴求。

譬如: ChatGPT 經(jīng)?；糜X知識，不傾向于使用瀏覽器做實事檢驗；Perplexity 雖然幻覺問題大幅減少，但對信息的挖掘不夠深，簡單的搜索就進(jìn)行摘要式生成，沒有基于信息進(jìn)行推理的多步?jīng)Q策，只適合簡單的知識查詢。

就我個人而言，日常工作需要大量的知識挖掘。經(jīng)常需要從一個概念出發(fā)，經(jīng)過多次跳轉(zhuǎn)來獲取信息，跳轉(zhuǎn)的連接包括：論文引用、博客鏈接、作者、作者的實驗室和導(dǎo)師、作者所在的團(tuán)隊等。在這種場景下 Perplexity 也會捉襟見肘。

我不在乎一個問題需要 10 分鐘才能獲得答案，只要異步的給我一個足夠正確的答案就行了。

3. 回顧一下 Agent

3.1 傳統(tǒng) Agent

“agent”一詞最早的使用可追溯到中古英語時期（1150—1500年）。根據(jù)《牛津英語詞典》（OED）的記載，最早關(guān)于“agent”一詞的證據(jù)出現(xiàn)在1500年之前，出自煉金術(shù)士兼奧古斯丁教士喬治·里普利（George Ripley）的著作。

我們需要先回顧下 AI 領(lǐng)域下 Agent 這個概念。這里我們引用下《Artificial Intelligence: A Modern Approach, 4th》的定義：

智能體 (Agent) 就是某種能夠采取行動的東西 (agent 來自拉丁語 agere, 意為“做”）。

理性智能體（rational agent）需要為取得最佳結(jié)果或者存在不確定性時取得最佳期望結(jié)果而采取行動

人工智能專注于研究和構(gòu)建做正確的事情的智能體，其中正確的事情是我們提供給智能體的目標(biāo)定義。這種通用范式非常普遍，以至于我們可以稱之為標(biāo)準(zhǔn)模型 (standard model）

比如深藍(lán)或者 AlphaGo, 這類智能體的目標(biāo)是贏得游戲。而它們的創(chuàng)造者們要做的是定義價值函數(shù)，以在不同的棋局下嘗試不同的走法，根據(jù)價值函數(shù)選出其中最有可能獲勝的走法，最終贏得游戲。

3.2 LLM based Agent

OpenAI 的 Lilian Weng 在這方面有一個經(jīng)典的綜述性文章，有興趣的可以看原文：https://lilianweng.github.io/posts/2023-06-23-agent/

LLM 驅(qū)動的智能體相較于傳統(tǒng) Agent，利用了大型語言模型（LLM）的強大能力，徹底改變了智能體的工作方式。這類智能體不僅僅是完成單一任務(wù)的工具，它們能夠在各種不同的任務(wù)之間切換，并且通過理解自然語言來解決問題。

其核心能力可以被分解為：規(guī)劃、記憶、工具使用。

From Lilian Weng’s LLM Powered Autonomous Agents

3.2.1 規(guī)劃

復(fù)雜任務(wù)通常需要多步完成，LLM 驅(qū)動的智能體會先把大任務(wù)分解成若干子任務(wù)。比如通過“思維鏈”（Chain of Thought，簡稱 CoT）技術(shù)，模型被引導(dǎo)“逐步思考”，將難題分解為多個簡單步驟。這種方法不僅讓任務(wù)處理更加高效，還幫助我們理解模型的思考過程。

而“思維樹”（Tree of Thoughts，簡稱 ToT）則是在每一步生成多個可能的想法，構(gòu)建出一個樹狀結(jié)構(gòu)。通過廣度優(yōu)先或深度優(yōu)先搜索，模型能夠探索更多可能的推理路徑，最后選擇最佳方案。

3.2.2 記憶

LLM 的“短期記憶”功能類似于上下文學(xué)習(xí)，能在當(dāng)前對話中學(xué)習(xí)并適應(yīng)用戶的需求。但僅依靠短期記憶有時是不夠的，尤其在復(fù)雜的長期任務(wù)中。因此，智能體還會利用外部向量存儲來作為“長期記憶”，幫助它記住更多信息，并且隨時能快速檢索這些內(nèi)容。

長期記憶可以理解為 AI 系統(tǒng)的“備忘錄”或數(shù)據(jù)庫，保存了歷史交互和重要信息。比如，一個智能助手可以記住你幾天前討論過的項目細(xì)節(jié)，之后你再問起時，它能快速調(diào)取這些信息，而不需要你重復(fù)所有內(nèi)容。這就像我們記住過去的經(jīng)驗，而不一定記得每個對話的細(xì)節(jié)。對于 ChatGPT 類產(chǎn)品來說，長期記憶幫助它在多個交互中保持一致性，提升用戶體驗。

3.2.3 工具使用

LLM 本身的知識是固定的，無法實時更新。所以，智能體會使用各種外部工具來補充其能力，比如通過 API 獲取最新數(shù)據(jù)、調(diào)用代碼執(zhí)行功能，甚至訪問一些專有的信息源。這種工具使用能力極大拓展了 LLM 智能體的應(yīng)用范圍。

4. 當(dāng)前 Agent 系統(tǒng)的挑戰(zhàn)

4.1 缺乏理論指導(dǎo)

當(dāng)前 Agent 的設(shè)計可以說是百花齊放，思路各異。在規(guī)劃、記憶、工具上都有大量的選型組合。Multi-agent 更是各種各樣（模擬公司、模擬醫(yī)院等）。但這些 Agent 既缺乏系統(tǒng)性的評估，也缺乏長遠(yuǎn)的路線性的方向，大多數(shù)不具有很強的延續(xù)性。更多是隨機的試錯。

4.2 缺乏復(fù)雜的思考能力

GAIA Benchmark(https://arxiv.org/abs/2311.12983) 是由 Meta Yann LeCun 等人和 HuggingFace 一起提出的一個面向通用 AI 助手的評測基準(zhǔn)。旨在評估 AI 在處理實際問題時的能力。該基準(zhǔn)包含 466 個精心設(shè)計的問題，涵蓋多模態(tài)處理、工具使用、推理等核心能力。GAIA 的設(shè)計理念是讓問題對人類來說相對簡單，但對當(dāng)前的先進(jìn) AI 系統(tǒng)（如 GPT-4）卻具有挑戰(zhàn)性。人類平均能在 GAIA 上獲得 92% 的成功率，而 GPT-4 配備插件后僅為 15%，這展示了 AI 系統(tǒng)在面對現(xiàn)實世界任務(wù)時的不足。GAIA 通過真實用例和不可記憶的答案，避免了傳統(tǒng)基準(zhǔn)的諸多缺陷。
一個例題：根據(jù)維基百科，2021年有多少亞洲國家仍然保持君主制并且有出?？?？

下圖中是不同系統(tǒng)在 GAIA Benchmark 上的表現(xiàn)。圖中 Level 1、Level 2、Level 3 依次是更難的、更復(fù)雜的、更需要時間的問題。隨著級別的提升，無論是搜索引擎、GPT-4（有無 Plugin）、AutoGPT 都出現(xiàn)了顯著的表現(xiàn)下降，但是人類一直很穩(wěn)定。這其中的主要原因有兩點：

任務(wù)復(fù)雜性與步驟依賴：GAIA 設(shè)計的問題往往要求執(zhí)行多步驟操作、跨多種工具完成推理。盡管這些任務(wù)對人類來說概念簡單，但對 AI 系統(tǒng)尤其具有挑戰(zhàn)性，GPT-4 在處理這些多步驟、需要跨模態(tài)和工具使用的任務(wù)時，往往表現(xiàn)不佳。例如，人類在 GAIA 上表現(xiàn)優(yōu)秀的一個原因是他們能夠輕松地執(zhí)行多個操作步驟并動態(tài)調(diào)整策略，而 GPT-4 由于 Planning 能力和記憶局限，在復(fù)雜任務(wù)中容易失敗。
推理能力與調(diào)整能力的差異：人類在完成 GAIA 的問題時，能夠輕松回溯和調(diào)整推理路徑，而 GPT-4 的推理過程較為僵化，難以根據(jù)任務(wù)的需求進(jìn)行動態(tài)調(diào)整。例如，GPT-4 的推理鏈條一旦出錯，通常難以自我糾正，而人類則可以基于常識和上下文靈活修正錯誤。

4.3 Multi-agent 設(shè)計過于復(fù)雜

從軟件工程角度去看 multi-agent 的話，復(fù)雜度的管理顯然失控了。各種副作用的傳導(dǎo)，耦合的組件讓 multi-agent 的開發(fā)變得越來越難。并且目前還沒有看到由 multi-agent 帶來顯著的群體智能。

Multi-agent 是否只是某種復(fù)雜化的 self consistency 也是一個待驗證的問題。

Self-Consistency Improves Chain of Thought Reasoning in Language Models
https://arxiv.org/abs/2203.11171
這篇文章提出了“Self-Consistency”方法，用于改進(jìn)語言模型的鏈?zhǔn)酵评硇阅?。通過生成多樣化的推理路徑并匯總一致答案，該方法顯著提升了算術(shù)和常識推理任務(wù)的準(zhǔn)確率（提升幅度最高可達(dá)17.9%）。自一致性無需額外訓(xùn)練或監(jiān)督，適用于不同規(guī)模的語言模型，是一種簡潔有效的推理增強策略。

5. 尋找理論基礎(chǔ)

1956 年秋，在 MIT 信息理論特別興趣小組上，出現(xiàn)了三個工作：
1）Allen Newell 和 Herbert A. Simon 的《The logic theory machine–A complex information processing system》
2）Noam Chomsky 的《Three models for the description of language》
3）George Miller 的《The Magical Number Seven, Plus or Minus Two: Some Limits on our Capacity for Processing Information》
這次會議是”認(rèn)知革命“的開始，它激發(fā)了符號人工智能、生成語言學(xué)、認(rèn)知科學(xué)、認(rèn)知心理學(xué)、認(rèn)知神經(jīng)科學(xué)等子領(lǐng)域的創(chuàng)建。

當(dāng)我們說要構(gòu)建“人工智能”時，這里的“智能”是指和人類對齊的“智能”（更細(xì)節(jié)的內(nèi)容放在了 7.1.2 節(jié)）。那當(dāng)我們希望在無限的 Agent 設(shè)計方法上尋找一個理論指引的方向時：

我們需要用認(rèn)知科學(xué)領(lǐng)域的理論作啟發(fā)

Agent 架構(gòu)的搜索需要一些啟發(fā)函數(shù)，而我們的目標(biāo)是和人類的“智能”對齊。因此，認(rèn)知科學(xué)的理論是最顯而易見的啟發(fā)函數(shù)。并且看起來 Sibyl 在這條路上做出了點成績（GAIA 第一）。

下面，我們先簡單回顧下兩個經(jīng)典的認(rèn)知理論，Dual Process Theory 和 Global Workspace Theory。Sibyl 之所以選擇這兩個理論作為起手，不僅僅是因為它們的認(rèn)可度，也因為其中看到了和 LLM 之間微妙的聯(lián)系。

Yoshua Bengio 在類似的技術(shù)路線上有很深的思考，有興趣的可以關(guān)注他在 Mila 的工作。

Yoshua Bengio 在類似的技術(shù)路線上有很深的思考，有興趣的可以關(guān)注他在 Mila 的工作。
推薦這兩篇論文起手：
Inductive Biases for Deep Learning of Higher-Level Cognition
https://arxiv.org/abs/2011.15091
這篇文章提出，通過引入高層次的認(rèn)知歸納偏置，深度學(xué)習(xí)可以更好地實現(xiàn)分布外泛化和系統(tǒng)化泛化。文章強調(diào)當(dāng)前深度學(xué)習(xí)系統(tǒng)缺乏人類在處理新任務(wù)和變化環(huán)境時的靈活性和魯棒性。作者建議引入與人類系統(tǒng)1（無意識處理）和系統(tǒng)2（有意識推理）相關(guān)的歸納偏置，并通過因果推理和知識模塊化來提升AI的泛化能力。這將幫助AI系統(tǒng)更接近人類智能，超越僅依賴數(shù)據(jù)驅(qū)動的學(xué)習(xí)模式。
Consciousness in Artificial Intelligence: Insights from the Science of Consciousness
http://arxiv.org/abs/2308.08708[1]
這篇報告通過神經(jīng)科學(xué)理論評估AI是否可能具備意識，認(rèn)為現(xiàn)有AI系統(tǒng)沒有意識，但未來可能具備。報告基于計算功能主義假設(shè)，提出“意識指示屬性”作為評估標(biāo)準(zhǔn)，建議進(jìn)一步研究其技術(shù)可行性及潛在的倫理和社會影響。

5.1 Dual Process Theory

雙過程理論，常被簡稱 System 2。

雙過程理論嘗試解釋思維是如何以兩種不同的方式產(chǎn)生的，或者是由兩種不同的過程導(dǎo)致的。這兩種過程被稱為 System 1 和 System 2。

雖然后來 Evans 和 Stanovich 在《Dual-Process Theories of Higher Cognition: Advancing the Debate》中講兩者的名稱調(diào)整為 Type 1 和 Type 2，以更準(zhǔn)確的描述這個理論。但 System 2 這個詞已經(jīng)出圈兒了，連 Dual Process Theory 這個本名都逐漸被遺忘。所以，我們還是用 System 1 和 System 2 這兩個符號化的名詞來進(jìn)行討論。

System 1 是一種快速的、自動化的、無意識的過程。比如：算 2 + 2 或者在空曠的道路上開車。你不需要費心思，事情就自然而然地發(fā)生了。你甚至無法解釋你是怎么做的。

System 2 則是一種慢速的、需要注意力的、有意識的過程。比如計算 17 * 24 或者數(shù)一下 “strawberry” 這個單詞里有多少個字母 “r”。這種思考過程需要你停下來仔細(xì)的思考，并且你可以向第三方報告你的思考過程。

5.2 Global Workspace Theory（GWT）

全局工作空間理論（GWT）是另一個認(rèn)知模型。

GWT 使用劇院隱喻來說明其概念。在這個類比中：

舞臺代表了意識，只有有限的信息會被帶入覺知范圍。
聚光燈象征注意力，它突出特定的信息，使其進(jìn)入意識。
后臺包含了無意識的過程，這些過程為舞臺上展示的內(nèi)容做準(zhǔn)備并施加影響，但它們本身并不直接進(jìn)入意識。

這個隱喻強調(diào)，雖然大多數(shù)認(rèn)知過程是并行且無意識進(jìn)行的，但只有少量的信息在任何時刻可以進(jìn)入意識。

GWT 的核心思想是，當(dāng)特定的感官輸入或記憶獲得足夠的注意時，它們會被廣播到大腦的不同認(rèn)知模塊。這種廣播允許大腦中專門化區(qū)域共享信息，從而促進(jìn)整合的反應(yīng)和更高層次的認(rèn)知功能，如決策、問題解決和計劃。全球工作空間充當(dāng)了信息交換的中心樞紐，使得來自不同神經(jīng)活動的體驗得以整合，形成統(tǒng)一的意識體驗。

后來，Stanislas Dehaene 又進(jìn)一步提出了 Global Neural Workspace Theory(GNWT)，讓 GWT 有了更多的神經(jīng)解剖學(xué)的基礎(chǔ)。其中，“神經(jīng)雪崩”理論深刻揭示了 Global Workspace Theory 和 Dual Process Theory 在人腦中的物理關(guān)系。

在LLMs中，存在一個類似的限制：上下文大小。LLMs一次只能“關(guān)注”一定量的信息，這由上下文窗口決定。這就是全局工作空間理論與LLMs中的注意力機制產(chǎn)生聯(lián)系的地方。

無論模型聲稱有多少上下文大小，O(n^2) 的時間復(fù)雜度很難無損的規(guī)避。并且即使 GPT-4o 聲稱支持 128k，實際上到 32k 后就開始有明顯的衰減（https://arxiv.org/abs/2404.06654）。這和預(yù)訓(xùn)練的方法、位置編碼的機制都有關(guān)，只能緩解，很難根治。

6. Sibyl 架構(gòu)設(shè)計

我們先看下 Sibyl 的大致流程，后面的小節(jié)我們再拆解一些細(xì)節(jié)，討論其和兩個認(rèn)知理論的關(guān)系。

一切從用戶的提問開始。然后，Tool Planer 會想辦法找出最合適的工具和策略來解決問題。接著，外部信息獲取通道就像幫你翻資料，它會搜集并篩選出相關(guān)的信息，只留最重要的部分，供后面的推理步驟使用。

框架的核心是 Global Workspace，這個部分就像一個大家都能訪問的“共享記憶”，不同的模塊可以通過它協(xié)同工作，保證推理過程中的上下文信息不會丟。

接下來有一個多代理辯論評審團(tuán)，里面的專門代理人會進(jìn)行辯論、討論，把答案打磨得更完美。這個環(huán)節(jié)能確保答案的多樣性和可靠性，兼顧不同的觀點。

最后，經(jīng)過這些步驟，Sibyl 會生成一個既準(zhǔn)確又可靠的答案，特別適合處理復(fù)雜的、長程的推理問題。

簡單的過了一下流程，我們需要深入看下兩個和認(rèn)知理論相關(guān)的核心設(shè)計理念：System 2 First 和 Selective Compression in Global Workspace。

6.1 System 2 First

Sibyl 在設(shè)計的時候采取了稱為 System 2 First 的理念。

這里有兩個角度去理解這個理念：性能導(dǎo)向和可遞歸的推理空間

6.1.1 性能導(dǎo)向（推理資源換智能）

我們采取的是以性能為導(dǎo)向的方式。我們不追求速度很快的響應(yīng)速度，而是把重點放在提升準(zhǔn)確性和深度的推理上，即使這會花費更多的時間和資源。為了實現(xiàn)這一點，v0.2 這個版本里，每個模塊中都默認(rèn)啟用了類似“思維鏈”（CoT）的推理方法。（實際上是基于 Langchain 的結(jié)構(gòu)化輸出實現(xiàn)的，最近 OpenAI 也在文檔中推薦用類似的方式實現(xiàn)，希望他們是抄我的）

無論是“思維鏈”還是“思維樹”，這些都屬于推理策略，這些策略未來可能會被替換成效果更好（但可能更貴）的實現(xiàn)。比如這篇文章的思路：https://arxiv.org/abs/2408.03314。

這種不顧成本，只求效果的思路我們稱為：System 2 First。

同時，由于顯存墻的存在，在參數(shù)量上的提升已經(jīng)遇到瓶頸，但推理時間我們并沒有硬件上的瓶頸。

6.1.2 可遞歸的推理空間

我們再看看另一個角度。

這里的核心理念是盡可能的在語言空間中的推理，而不是在殘差流(residual stream)中進(jìn)行推理。

想了解 residual stream 數(shù)學(xué)細(xì)節(jié)的看這里：https://transformer-circuits.pub/2021/framework/index.html

殘差流是 Anthropic 在一系列機械可解釋性(mechanistic interpretability)工作中提出和使用的概念。

簡單來說，殘差流充當(dāng)了模型內(nèi)部信息流的的總線。transformer 模型每一層的輸出，都會被添加到下一層的輸入中。這種“加操作”允許模型在引入新的變換的同時，保留來自前幾層的信息。殘差流的重要性在于它對信息流的維護(hù)，這對于模型在自然語言處理等任務(wù)中的表現(xiàn)至關(guān)重要。

由于每一層都在逐步操作這個信息總線，其內(nèi)部維護(hù)了某種類似逐步推理的過程，但推理的步數(shù)被鎖定為總層數(shù)。

下圖來自 lesswrong 上 4 年前的一篇經(jīng)典文章，可視化了 GPT-2 是如何一步一步完善對 token 的預(yù)測的：

圖中，X軸是輸入給模型的一段文字（tokens），Y 軸向上是沿著 transformer 層的方向被逐漸改進(jìn)的對下一個 token 的預(yù)測。（每個 token 都有對應(yīng)的下一個 token）

Logit lens 原始文章：
https://www.lesswrong.com/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens
后續(xù)工作：https://arxiv.org/abs/2303.08112

這個可視化工作非常 cool，我們會立刻發(fā)現(xiàn)一個問題：雖然 LLM 可以在殘差流中進(jìn)行推理，但這種推理能力嚴(yán)重被層數(shù)和有限的電路(circuit) 結(jié)構(gòu)限制。

預(yù)訓(xùn)練好的模型的單次 forward 的算力消耗（能源消耗）是個常量，無法根據(jù)問題的復(fù)雜度進(jìn)行調(diào)整。

但通過將推理擴展到語言空間，我們可以獲得一個類似遞歸的結(jié)構(gòu)，計算量可以根據(jù)任務(wù)的難度進(jìn)行擴展。

這里有一個比較細(xì)節(jié)的點是：什么級別的推理步驟需要展開到語言空間？什么級別的不需要？

這其實和預(yù)訓(xùn)練模型本身的能力有關(guān)。如果一個推理步驟跨度過大，模型無法在其內(nèi)部完成推理，強行讓模型直接記住事實的話，那就會導(dǎo)致模型知其然而不知其所以然，損失了泛化性。

這里會有一個未經(jīng)實驗驗證的假設(shè)（也許有人做了我還沒看到）：模型越大，單次 forward 能夠推理的距離越遠(yuǎn)。

但這個距離我們并沒有很好的度量方法。（同時我們也不知道何時單次 forward 的推理距離會大到人類不可理解的程度??）

既然我們不知道如何度量“推理距離”，也不知道最好的閉源模型的尺寸，我們唯一能做的就是盡可能的將推理步驟展開到語言空間里，來提高各個模塊的準(zhǔn)確率，即：System 2 First。

當(dāng)然，如果可以對模型進(jìn)行訓(xùn)練，就可以更好的適配模型的單步推理能力。

The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A”
https://arxiv.org/abs/2309.12288
這篇論文揭示了自回歸大語言模型（LLMs）在處理“反轉(zhuǎn)關(guān)系”上的一個普遍問題：如果模型在訓(xùn)練中學(xué)到“A 是 B”，它并不會自動學(xué)會“B 是 A”，這被稱為“反轉(zhuǎn)詛咒”。例如，模型能夠回答“瓦蓮京娜·捷列什科娃是第一位進(jìn)入太空的女性”，但無法回答“誰是第一位進(jìn)入太空的女性”。
然而，值得注意的是，如果“A 是 B”在上下文中出現(xiàn)，模型能夠推導(dǎo)出反向關(guān)系。這意味著推理有可能只能在語言空間中進(jìn)行。

6.2 Selective Compression in Global Workspace

System-2 First 是一個不錯的起點，但我們很快就會遇到瓶頸：人沒有無限大的腦容量，模型也沒有無限大的 Context。

6.2.1 信息的壓縮

Sibyl 的架構(gòu)中會涉及到多個組件，每個組件都需要獲取盡可能多的信息來完成任務(wù)?？墒?LLM 的 Context 是有限的。由于我們必須在一個有限的空間中解決不同難度的問題，這意味著我們必須有一套機制管理好這有限的空間。

比如，工具返回的結(jié)果(Tool Result) 可能有約 5000 tokens，這里會有大量和任務(wù)無關(guān)的細(xì)節(jié)信息。我們通過一個壓縮抽取模塊，將其整理成約 300 tokens 的“筆記”（Step Note），然后放入 Global Workspace 里。這樣 10k tokens 就可以容納約 30步的工具內(nèi)容。

Sibyl 的平均壓縮比大約為 16 倍。在需要查詢互聯(lián)網(wǎng)數(shù)據(jù)的場景中，壓縮比通常會更高。因為網(wǎng)頁里往往有大量和任務(wù)無關(guān)的信息。Global Workspace 里的信息會被每一個模塊使用：工具選擇器（Tool Planner)、外部信息抽取器（External Information Acquisition Channel)、陪審團(tuán)(Jury)。

6.2.2 LLM Native 的推理

相比于樹結(jié)構(gòu)的推理 (如 MCTS），這相當(dāng)于將推理過程線性展開到 Global workspace 中。

在每一步推理時，LLM 能看到之前所有的歷史，包含錯誤的嘗試。這樣的好處是整個系統(tǒng)能更好的融合推理歷史和 pretrain 獲得的先驗來進(jìn)行下一步的決策。當(dāng)然也有一些麻煩的地方，我們沒法使用像 UCB(Upper Confidence Bound) 或 PUCT(Predictor UCT) 這樣好用的工具來處理這個問題，靈活的在“探索”和“利用”間權(quán)衡。

Sibyl 目前只有對 Global Workspace 的追加操作，未來希望能夠引入“刪”，“改”操作，來支持更長程的任務(wù)。

6.3 評估

我們在 GAIA 榜單上進(jìn)行了一次提交，結(jié)果如下表所示。

GAIA 這個數(shù)據(jù)集會從多個角度來評估一個系統(tǒng)的能力，Level 1、Level 2 和 Level 3 的難度依次遞增，任務(wù)的步驟越來越多。每個題目會考察下面能力列表中的一個或多個：

跨越多個信息源的信息收集和整理
音頻、圖片或視頻信息理解
PDF、Word、Excel、Powerpoint 等文件內(nèi)容的理解
數(shù)學(xué)計算和邏輯推理
多步長程的推理能力

從這個評估結(jié)果我們可以看到：

單純的使用 GPT4 Turbo 只有 6.67 分（滿分 100 分）
GPT4 配合插件分?jǐn)?shù)會上漲到 14.60 分
Sibyl 能做到 34.55 分，比帶插件的 GPT-4 分?jǐn)?shù)要高一倍多

這個評估提供了基于認(rèn)知理論指導(dǎo) Agent 設(shè)計的可行性的證據(jù)，提高了我們在這個方向繼續(xù)前進(jìn)的信息。

7. 未來的方向

7.1 評估

評估指標(biāo)指引了系統(tǒng)迭代的方向。我們首先選擇了 GAIA Benchmark，其滿足了我們在指標(biāo)上選擇的兩個需求：

更具通用性，接近我們對這類工具需求的定義

在其榜單上，人類和 AI 的差距更大，這意味著它能幫助我們找到現(xiàn)有 AI 系統(tǒng)的不足之處

但單一指標(biāo)是不夠的，目前在計劃中的還有兩個方向的指標(biāo)：code 和 g factor。

7.1.1 Code

SWE-Bench 是一個經(jīng)過考驗的指標(biāo)，也滿足上面提到的兩個需求。從解代碼 bug 開始，到未來能寫新 feature 也許是一個不錯的方向。也許它不是一個 AGI 的好指標(biāo)，但是一個有用的指標(biāo)。能在 SWE-Bench 獲得好成績意味著我們起碼獲得了一個不錯的工具。

7.1.2 g factor

g factor 是一個心理測量學(xué)概念。其被定義為一種統(tǒng)計構(gòu)造，用于解釋不同認(rèn)知能力測試（cognitive ability tests）之間觀察到的正相關(guān)性。它基本上表明，在某一認(rèn)知領(lǐng)域表現(xiàn)出色的個體，例如在語言推理方面，通常也會在其他領(lǐng)域表現(xiàn)良好，例如數(shù)學(xué)推理或空間推理。這一現(xiàn)象通常用“智力是廣義的”來概括，表明在多樣的智力任務(wù)背后存在一個共享的認(rèn)知能力。

Artificial Intelligence (AI) 這個詞已經(jīng)成為了一個符號，但這個符號的所指卻依舊模糊。好像大家都知道 Intelligence 是什么，又好像不知道 Intelligence 具體是什么。為了避免無限能指的困境，我們需要一個從第一性原理出發(fā)的分析，來回答：“當(dāng)我們談?wù)?Intelligence 的時候，我們在談?wù)撌裁?？?/p>

但這里篇幅所限，無法完全展開（給未來挖個新坑），我們只做簡單的討論，幫讀者建立簡單的直覺性的理解。

討論一：下棋

1997年 DeepBlue 擊敗加里·卡斯帕羅夫，2016-2017年 AlphaGo 擊敗李世石和柯潔。這兩個 AI 兩次讓人們以為在智力上機器已經(jīng)戰(zhàn)勝了人類。

國際象棋或者圍棋的世界冠軍，有著超出普通人的推理、搜索和記憶能力。人們以為在棋類上戰(zhàn)勝了人類就意味著找到了構(gòu)建 Artificial Intelligence 的方法。但事后來看，棋類 AI 并沒有教會我們太多東西，棋類 AI 用了一種與人類完全不同的方式解決了下棋，但它們除了下棋什么都不會。

我們通常會說 AlphaGo 是一種 “推土機式智能”。

構(gòu)建棋類 AI 的動機其實有一個邏輯上的問題：聰明的人能夠下好棋和下好棋就意味著很聰明并不是一回事。擁有能下好棋這個“技能”只是擁有 Intelligence 的必要不充分條件。

討論二：保溫杯

原始版本：https://www.lesswrong.com/posts/6smshoLzm7qrgsrb8/the-teacup-test

前文關(guān)于 Agent 的傳統(tǒng)定義部分，我們引用了這么一個定義：

理性智能體（rational agent）需要為取得最佳結(jié)果或者存在不確定性時取得最佳期望結(jié)果而采取行動

從這個角度來看，一塊石頭是不智能的，因為它什么都做不了。

?? 但我的保溫杯是智能的：

夏天的時候，它能讓我的冰美式一直冰爽
冬天的時候，它能讓我的熱拿鐵一直溫暖
它使用 “環(huán)境溫度和飲料溫度的差值的絕對值” 作為 value function
它能夠根據(jù)我的需求以及環(huán)境的變化一直選擇正確而理性的行為??

討論三：廣義智力

上面兩個討論可能會讓你明白定義 ”intelligence” 這個概念有多困難。

如果我們連 AI 的本身的含義都難以定義，又如何定義評價體系？沒有評價體系我們又該走向何處？

馬毅老師在這個 Podcast 里也有一些非常有趣的觀點：https://podcast.latepost.com/71

這里我們嘗試用一個類比來解決這個問題：當(dāng)一個人跑步成績很好的時候（比如劉翔），通常跳遠(yuǎn)也不差。這種情況下我們會說這個人的”身體素質(zhì)“非常好。“身體素質(zhì)”非常好這個也意味著這個人只要稍加學(xué)習(xí)游泳成績也會好于普通人。這種“身體素質(zhì)(類似 g factor, 我們稱其為 p factor)”類比其實可以幫助我們更好地理解智能的廣泛性問題。

正如身體素質(zhì)好的人在多種體育項目上表現(xiàn)出色一樣，我們通常認(rèn)為智力高的人也能在多種認(rèn)知任務(wù)上取得不錯的成績。比如，一個在語言能力上表現(xiàn)優(yōu)異的人，通常也會在數(shù)學(xué)推理等其他認(rèn)知領(lǐng)域有所表現(xiàn)。這種現(xiàn)象背后反映的就是我們前面提到的 g factor，也就是一種“廣義的智力”。

討論四：火星（no free lunch)

No Free Lunch 定理告訴我們，任何兩個優(yōu)化算法（包括人類智能）在其性能對所有可能問題取平均時是等效的。也就是說，算法應(yīng)該針對目標(biāo)問題進(jìn)行調(diào)整，以實現(xiàn)優(yōu)于隨機表現(xiàn)的效果。

就像身體素質(zhì)再好的人，也不意味著他能夠適應(yīng)所有的環(huán)境——例如：劉翔無法在火星上奔跑；同樣的道理，智力再高的人，也不一定能夠應(yīng)對所有類型的任務(wù)。人類的智力和身體能力一樣，都是在特定的環(huán)境下進(jìn)化而來的。它們在某些方面表現(xiàn)優(yōu)異，但在其他方面可能表現(xiàn)平平，甚至完全不適應(yīng)。

因此，AI 系統(tǒng)的評估也往往隱含著“人類中心主義 (Anthropocentrism) ”的的傾向。這也是為什么在構(gòu)建 Sibyl 時，我們優(yōu)先選擇和人類表現(xiàn)差異較大的榜單。

Anthropocentrism 這個單詞有沒有覺得眼熟？Claude 背后的公司叫 Anthropic。

討論五：晶體智能（Crystallized Intelligence）和流體智能（Fluid Intelligence）

晶體智能指的是一個人通過經(jīng)驗和學(xué)習(xí)所積累的知識、技能和信息。這種類型的智能是相對穩(wěn)定的，它依賴于過去的知識和經(jīng)驗，因此隨著年齡的增長，晶體智能通常會逐漸增強。比如，一個人在學(xué)習(xí)語言、背誦歷史事件、掌握數(shù)學(xué)公式等方面表現(xiàn)出的能力，通常與 ta 的晶體智能有關(guān)。換句話說，晶體智能更多地與知識庫和記憶力相關(guān)。

流體智能則不同，它更多體現(xiàn)了一個人在陌生環(huán)境中解決新問題的能力。這種智能與邏輯推理、問題解決、模式識別等高度相關(guān)。流體智能不依賴于過去的知識儲備，而是通過靈活運用大腦資源來處理新信息，因此流體智能往往在年輕時更為活躍，隨著年齡的增長可能會逐漸下降。

中學(xué)歷史考試和 MMLU 這樣的測試就是典型的晶體智能測試，只考察知識性內(nèi)容，換句話說就是死記硬背的能力。

而一些給人做的智力測驗和 ARC (Abstraction and Reasoning Corpus) 這樣的測試就是流體智能測試，考察解決新問題的能力。

當(dāng)然兩者并不是割裂和對立的，像 GAIA 和 SWE-Bench 這樣的評測兩者都考察，只是兩者的權(quán)重很難分析。因此在 GAIA 或 SWE-Bench 上表現(xiàn)優(yōu)異有可能大量依賴晶體智能：僅依賴少量特定的知識即可做的很好。

經(jīng)過上面的討論，我們可以看到 AI 的評估方面應(yīng)該兼顧技能性的考察和技能獲取能力的考察。但現(xiàn)在大多數(shù)的評測只關(guān)心技能性的考察（MMLU，GSM8K)。因此一些模型預(yù)訓(xùn)練和對齊階段沒見過的技能是我們著重需要關(guān)心的。可以說是這是某種泛化性的評估。

這里說的泛化型依然是在人類中心主義視角下的：

我們不會只關(guān)心“AI 能夠解多少道復(fù)雜的數(shù)學(xué)題“，也不會考察” AI 能否背誦 Wikipedia 全文“，但我們會考察“AI 是否能夠快速掌握新的知識和技能”，因為這種 “g factor” 會和一系列智力能力有正相關(guān)性。

7.2 推理能力

這里加上這么一節(jié)，本質(zhì)上是在構(gòu)建 Sibyl 的過程中，對現(xiàn)有 LLM 推理能力的不滿意。很多錯誤是由于 LLM 缺乏一些缺乏 Common Sense 的決策導(dǎo)致的。如果能夠提高模型的推理能力，Sibyl 所有模塊的效果都會有所提升。比如引入更多的 reasoning 方法：x of thoughts, self-consistency…

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters: http://arxiv.org/abs/2408.03314
這篇文章提出了一種動態(tài)調(diào)整推理時間計算資源分配的“計算優(yōu)化”策略，證明在許多任務(wù)上，相比于直接擴大模型規(guī)模，通過合理分配推理階段的計算資源能更高效地提升性能，特別是在有限計算資源下更為突出。此發(fā)現(xiàn)對未來大語言模型的開發(fā)和部署具有重要意義，表明可以通過推理時間的計算擴展來降低模型的預(yù)訓(xùn)練成本，同時提升模型的應(yīng)用表現(xiàn)。

此外，最近半年也有很多通過在模型推理階段使用額外的計算資源來提升模型的表現(xiàn)的工作。這也和 System 2 First 的思路一致。

（還沒寫完 o1-preview 就發(fā)布了??）

7.3 Agency (能動性）

現(xiàn)有的 ChatGPT 類產(chǎn)品都是被動的，用戶問一句，它答一句。如果用戶不問，GPU 就閑置，系統(tǒng)也隨之停下來。這種設(shè)計雖然符合大部分現(xiàn)有應(yīng)用的需求，但它完全依賴用戶的輸入，無法主動行動。

像 Sibyl 和 AutoGPT 這樣的 autonomous agents，在一定程度上可以根據(jù)一個預(yù)設(shè)目標(biāo)反復(fù)拆解并執(zhí)行子任務(wù)，具有一定的自主性。但即便如此，它們的任務(wù)仍然是短期的，且由用戶的輸入決定。

Nvidia 的 Voyager 向我們展示了一種簡單目標(biāo)如何帶來復(fù)雜行為的例子，尤其是在 Minecraft 這個游戲世界中。然而，Minecraft 畢竟只是一個虛擬環(huán)境，和現(xiàn)實世界有著本質(zhì)的不同。

Voyager: An Open-Ended Embodied Agent with Large Language Models: https://arxiv.org/abs/2305.16291
這篇文章提出了一種智能體，利用GPT-4在Minecraft中自主探索、學(xué)習(xí)技能，并通過自動課程、技能庫和迭代提示機制不斷優(yōu)化表現(xiàn)。VOYAGER在終身學(xué)習(xí)和任務(wù)解決上表現(xiàn)出色，遠(yuǎn)超現(xiàn)有技術(shù)，并為開發(fā)通用自我改進(jìn)智能體提供了新方向。

一個設(shè)想是，未來的 Sibyl 能夠 24×7 持續(xù)運行，用戶的問答需求只是它的高優(yōu)先級任務(wù)之一。與此同時，它自身會有一個長遠(yuǎn)的目標(biāo)驅(qū)動它一直運轉(zhuǎn)（比如：完善對世界的理解，降低看到新信息的 surprise），不依賴用戶輸入來決定它的行為。換句話說，Sibyl 將像一個生活在文本世界中的“缸中之腦”，自我驅(qū)動，不斷演化。

8. 總結(jié)

筆者在 6 月完成了 Sibyl 的相關(guān)實驗。三個月之后的 9 月， OpenAI 發(fā)布的 o1-preview 也采用了類似 System-2 first 思路，其利用 RL + CoT 將相關(guān)領(lǐng)域的分?jǐn)?shù)提到了新的高度，也讓 System-2 成為了熱門詞匯。
而 System-2 只是 Dual Process Theory 的一部分，Dual Process Theory 又只是認(rèn)知理論的冰山一角，與人類“智能”對齊還有很多工作要做。

本文基于認(rèn)知理論，探索了 AI 架構(gòu)設(shè)計的新方向。在回顧現(xiàn)有 Agent 系統(tǒng)的基礎(chǔ)上，我們提出了一種通過認(rèn)知科學(xué)理論來指導(dǎo) AI 架構(gòu)設(shè)計的思路，重點討論了 Dual Process Theory 和 Global Workspace Theory 在 AI 系統(tǒng)中的應(yīng)用。這不僅是一項技術(shù)上的改進(jìn)，更是一種理念上的嘗試——重新審視 AI 系統(tǒng)與人類智能之間的關(guān)聯(lián)。

通過實驗驗證，我們發(fā)現(xiàn)，System-2 優(yōu)先的推理模式和 Global Workspace 中的選擇性壓縮機制，顯著提升了系統(tǒng)在復(fù)雜長程任務(wù)中的表現(xiàn)。雖然這些系統(tǒng)在速度和成本方面有所犧牲，但在開放的場景中達(dá)到了更高的表現(xiàn)水平。這表明，未來 AI 系統(tǒng)的關(guān)鍵在于如何賦予其類人思維的多層次推理能力，以應(yīng)對復(fù)雜問題。

在這一探索過程中，“人類中心主義 (Anthropocentrism）”的 AI 觀念逐漸顯現(xiàn)。我們既不能僅憑少數(shù)性能指標(biāo)來衡量 AI 的優(yōu)劣，也不應(yīng)期望 AI 系統(tǒng)在所有任務(wù)中表現(xiàn)完美。我們應(yīng)關(guān)注 AI 在多個維度上如何與人類智能對齊——從技能獲取的速度、泛化的廣度到思維方式的相似性。

在這一觀念下重新審視現(xiàn)有的“大規(guī)模語言模型技術(shù)?！保銜l(fā)現(xiàn)無限的機會，這里以幾個問題結(jié)尾：