解碼 AI Agent 的底層邏輯與進(jìn)化之路

0 評(píng)論 765 瀏覽 2 收藏 47 分鐘

AI Agent作為人工智能領(lǐng)域的重要概念,近年來(lái)隨著技術(shù)的飛速發(fā)展而備受關(guān)注。從Alpha Go到ChatGPT,AI Agent的底層邏輯和進(jìn)化路徑逐漸清晰。本文將深入探討AI Agent的定義、從“指令執(zhí)行者”到“目標(biāo)追求者”的核心蛻變,以及其在不同應(yīng)用場(chǎng)景中的表現(xiàn)和面臨的挑戰(zhàn)。

01 當(dāng)我們聊 AI Agent 時(shí),到底在聊什么?從 Alpha Go 到 ChatGPT,一次講透 Agent 的底層邏輯

最近和朋友聊起AI Agent,發(fā)現(xiàn)大家的認(rèn)知差異還蠻大的。

有人覺(jué)得必須像宇樹(shù)機(jī)器人那樣有實(shí)體才算 Agent,有人覺(jué)得 ChatGPT 這種能對(duì)話的也算。

其實(shí)啊,這就像盲人摸象 —— 每個(gè)人心里的 AI Agent,都是基于自己的技術(shù)背景拼出來(lái)的圖景。

看完李宏毅老師課之后,我有了更全面的認(rèn)知。

今天我想從最樸素的定義出發(fā),聊聊這個(gè)讓技術(shù)圈既熟悉又陌生的概念。

從 “指令執(zhí)行者” 到 “目標(biāo)追求者”:AI Agent 的核心蛻變

回想一下,我們平時(shí)怎么用 AI?問(wèn) “AI Agent 怎么翻譯”,它立刻給出 “人工智能代理人”。

讓寫(xiě)一封郵件,它秒級(jí)生成模板。這些都是 “指令 – 響應(yīng)” 模式,人類(lèi)必須把步驟拆解清楚,AI 才能執(zhí)行。

真正的 AI Agent不一樣 —— 你只需要給一個(gè)目標(biāo),比如 “寫(xiě)一篇關(guān)于氣候變化的科普文章”,剩下的事交給它自己搞定。

這里的關(guān)鍵區(qū)別在于:傳統(tǒng) AI 是 “動(dòng)作執(zhí)行者”,Agent 是 “目標(biāo)追求者”。

就像你讓助手泡杯茶,前者需要你說(shuō) “燒開(kāi)水、取茶葉、倒熱水”,后者只需要說(shuō) “我想喝茶”。

Agent 要自己分析現(xiàn)狀(有沒(méi)有茶葉?水壺在哪?)、制定計(jì)劃(先燒水還是先洗杯子?)、執(zhí)行動(dòng)作,還要根據(jù)變化調(diào)整策略(發(fā)現(xiàn)茶葉沒(méi)了就改沖咖啡)。

用專(zhuān)業(yè)術(shù)語(yǔ)說(shuō),這個(gè)過(guò)程叫 “觀察 – 決策 – 行動(dòng)循環(huán):輸入目標(biāo)后,Agent 先觀察環(huán)境狀態(tài)(Observation)。

比如寫(xiě)科普文要先收集數(shù)據(jù);然后決定動(dòng)作(Action),比如搜索最新研究報(bào)告;執(zhí)行后環(huán)境變化(比如獲取了新數(shù)據(jù)),再進(jìn)入下一輪觀察,直到目標(biāo)達(dá)成。

Alpha Go就是典型例子:它的目標(biāo)是贏棋,Observation 是棋盤(pán)局勢(shì),Action 是落子位置,每一步都在動(dòng)態(tài)優(yōu)化策略。

Alpha Go 的啟示:傳統(tǒng) Agent 的 “Reward 困境”

早期打造 Agent 靠什么?

強(qiáng)化學(xué)習(xí)(RL)。就像訓(xùn)練小狗,做對(duì)了給骨頭(正 Reward),做錯(cuò)了拍腦袋(負(fù) Reward)。

Alpha Go 就是靠 “贏棋 + 1,輸棋 – 1” 的 Reward 信號(hào),在千萬(wàn)次對(duì)弈中學(xué)會(huì)了最優(yōu)落子。

但這種方法有個(gè)大問(wèn)題:每個(gè)任務(wù)都得從頭訓(xùn)練。

下圍棋的模型不能直接下象棋,想讓 AI 寫(xiě)代碼就得重新設(shè)計(jì) “代碼編譯成功 + 10,報(bào)錯(cuò) – 5” 的 Reward 體系,而且這個(gè) “獎(jiǎng)懲尺度” 全靠人工調(diào)參,堪比玄學(xué)。

想象一下,你想訓(xùn)練一個(gè) “家庭管家 Agent”,需要定義 “按時(shí)做飯 + 5”“打掃干凈 + 3”“打翻盤(pán)子 – 2”…… 但生活場(chǎng)景千變?nèi)f化,Reward 根本寫(xiě)不完。

這就是 RL 的天花板:專(zhuān)用性太強(qiáng),通用性太差

直到LLM(大型語(yǔ)言模型)的出現(xiàn),才讓 Agent 迎來(lái)轉(zhuǎn)機(jī)。

LLM 如何讓 Agent “腦洞大開(kāi)”?從 “選擇題” 到 “開(kāi)放題”

傳統(tǒng) Agent 的 Action 像選擇題:Alpha Go 只能在 19×19 的棋盤(pán)上選落子點(diǎn),掃地機(jī)器人只能選前進(jìn)、轉(zhuǎn)向等有限動(dòng)作。

但 LLM 驅(qū)動(dòng)的 Agent 直接把選擇題變成了開(kāi)放題—— 它能用自然語(yǔ)言描述任何動(dòng)作,理論上擁有 “無(wú)限可能”。比如讓 Agent “訂一張周末去成都的機(jī)票”,它可以:

  1. 先 “觀察” 當(dāng)前信息:用戶有沒(méi)有說(shuō)出發(fā)地?有沒(méi)有價(jià)格偏好?
  2. 決定 “動(dòng)作”:比如 “請(qǐng)問(wèn)您從哪個(gè)城市出發(fā)?”(獲取缺失信息),或者 “打開(kāi)訂票網(wǎng)站查看航班”(調(diào)用工具)。
  3. 根據(jù)反饋調(diào)整:如果網(wǎng)站顯示沒(méi)票了,就改查高鐵,或者建議調(diào)整日期。

另外一個(gè)用 LLM 運(yùn)行 AI Agent 的優(yōu)勢(shì)是,過(guò)去如果用強(qiáng)化學(xué)習(xí)的方法來(lái)訓(xùn)練一個(gè) AI Agent,那意味著什么?

意味著你必須要定義一個(gè)Reward。

那如果你今天是要訓(xùn)練一個(gè)AI 程序員,那你可能會(huì)告訴 AI 程序員說(shuō),如果你今天寫(xiě)的程序有一個(gè) compile error(編譯錯(cuò)誤),那你就得到Reward -1。

那今天如果是用LLM驅(qū)動(dòng)的 AI Agent,你今天就不用幫他定 Reward 了,今天有 compile error(編譯錯(cuò)誤),你可以直接把 compile error(編譯錯(cuò)誤) 的log(日志)給他,他也許根本就讀得懂那個(gè) log(日志),他就可以對(duì)程序做出正確的修改。

而且相較于 Reward 只有一個(gè)數(shù)值,直接提供 error 的 log 可能提供了 Agent 更豐富的信息,讓它更容易按照環(huán)境回饋,環(huán)境目前的狀態(tài)來(lái)修改它的行為。

這里的關(guān)鍵是,LLM 自帶 “通用智能”:能理解自然語(yǔ)言目標(biāo),能分析文本形式的 Observation(比如網(wǎng)頁(yè)內(nèi)容、用戶對(duì)話),還能生成靈活的 Action(從打字輸入到調(diào)用 API)。

比如 2023 年爆火的 Auto GPT,就是讓 GPT自己給自己設(shè)定子目標(biāo),一步步完成復(fù)雜任務(wù)。

雖然當(dāng)時(shí)效果沒(méi)網(wǎng)紅吹的那么神,但打開(kāi)了一個(gè)新思路:用現(xiàn)有的強(qiáng)大 LLM,直接套進(jìn) Agent 框架,跳過(guò)繁瑣的訓(xùn)練過(guò)程。

當(dāng) Agent “住進(jìn)” 虛擬世界:從游戲 NPC 到科研助手

LLM 讓 Agent 的應(yīng)用場(chǎng)景徹底放飛。

比如 2023 年有人搞了個(gè) “AI 虛擬村莊”,每個(gè)村民都是一個(gè)Agent:農(nóng)夫會(huì)觀察天氣和農(nóng)田狀態(tài)決定是否播種,裁縫會(huì)根據(jù)村民需求 “設(shè)計(jì)” 衣服。

這些 NPC 的行為全靠語(yǔ)言模型生成,環(huán)境變化(比如下雨、物資短缺)也用文字描述,形成了一個(gè)自給自足的小社會(huì)。

更夸張的是有人用多個(gè) LLM 模擬《我的世界》文明,讓 AI 自己發(fā)展出交易系統(tǒng)和政府,簡(jiǎn)直像數(shù)字版 “人類(lèi)簡(jiǎn)史”。

在現(xiàn)實(shí)世界,Agent 正在學(xué)會(huì) “用電腦做事”。

比如 OpenAI 的 Operator 界面,能讓 AI 像人類(lèi)一樣操作電腦:你說(shuō) “訂披薩”,它會(huì) “看” 電腦屏幕(識(shí)別網(wǎng)頁(yè)內(nèi)容),“點(diǎn)” 鼠標(biāo)選擇披薩種類(lèi),“敲” 鍵盤(pán)輸入地址。

這種能力可不是 “上古時(shí)代”(2022 年前)的模型能比的 —— 當(dāng)年用語(yǔ)言模型下國(guó)際象棋,連規(guī)則都搞不懂,現(xiàn)在卻能處理復(fù)雜界面交互,靠的就是LLM 對(duì)圖文信息的理解能力突飛猛進(jìn)。

那其實(shí)讓AI 使用電腦

不是最近才開(kāi)始有的愿景。

其實(shí)早在2017年就有一篇論文叫World of Bits,嘗試過(guò)使用 AI agent。

只是那個(gè)時(shí)候能夠互動(dòng)的頁(yè)面,還是比較原始的頁(yè)面,你可以看到下面這些 AI Agent它真正能夠處理的是比較原始的頁(yè)面。

那個(gè)時(shí)候也沒(méi)有大型語(yǔ)言模型,所以那時(shí)候的方法就是硬圈一個(gè) CNN 直接硬吃熒幕畫(huà)面當(dāng)做輸入,輸出就是鼠標(biāo)要點(diǎn)的位置,或者是鍵盤(pán)要按的按鈕,看看用這個(gè)方法能不能夠讓 AI Agent 在網(wǎng)路的世界中做事啊。

這個(gè)是2017年,這甚至不能說(shuō)是上古時(shí)代,以后有這個(gè) BERT 的以前的時(shí)代就是史前時(shí)代。

這個(gè)應(yīng)該算是舊石器時(shí)代的產(chǎn)物。

科研領(lǐng)域也出現(xiàn)了 “AI 科研助手”。

比如 Google 的 AI co-scientist,能根據(jù)人類(lèi)給的研究方向,自己設(shè)計(jì)實(shí)驗(yàn)方案、分析數(shù)據(jù),甚至提出新假設(shè)。

雖然目前還不能真的動(dòng)手做實(shí)驗(yàn),但已經(jīng)能生成完整的研究提案,據(jù)說(shuō)在生物學(xué)領(lǐng)域幫人類(lèi)節(jié)省了大量時(shí)間。

不過(guò)這里得潑盆冷水:這類(lèi)宣傳往往帶著 “科技八股文” 濾鏡,真實(shí)效果還得打個(gè)問(wèn)號(hào),但方向確實(shí)讓人興奮。

從回合制到 “即時(shí)互動(dòng)”:Agent 的終極形態(tài)?

現(xiàn)在大部分 Agent 還是 “回合制”:你說(shuō)一句,它動(dòng)一下,像下棋一樣輪流行動(dòng)。

但真實(shí)世界是 “即時(shí)” 的:比如開(kāi)車(chē)時(shí)路況瞬息萬(wàn)變,對(duì)話時(shí)對(duì)方可能隨時(shí)打斷。

這就需要 Agent 能實(shí)時(shí)響應(yīng),比如 GPT-4 的語(yǔ)音模式,你說(shuō) “講個(gè)故事”,它開(kāi)始講,你突然說(shuō) “換個(gè)恐怖題材”,它能立刻切換劇情,這種 “打斷 – 調(diào)整” 能力才是更接近人類(lèi)的互動(dòng)方式。

不過(guò)實(shí)現(xiàn)起來(lái)很難,因?yàn)樯婕暗?“多模態(tài)實(shí)時(shí)處理”:既要聽(tīng)懂語(yǔ)音,又要分析語(yǔ)氣、背景噪音,還要預(yù)判用戶意圖。

如果你在講電話的時(shí)候,對(duì)方完全都沒(méi)有回應(yīng),你會(huì)懷疑他到底有沒(méi)有在聽(tīng)?

想象一下未來(lái)的 AI 助手:你邊開(kāi)車(chē)邊讓它訂酒店,它能根據(jù)你說(shuō)話的語(yǔ)氣判斷 “急不急”,甚至提醒你 “前方限速,先專(zhuān)注開(kāi)車(chē),我?guī)湍氵x 3 家備選”——這種場(chǎng)景化、即時(shí)化的 Agent,可能才是終極形態(tài)。

技術(shù)之外:為什么 Agent 突然又火了?

最后聊聊 “為什么現(xiàn)在 Agent 又成了熱門(mén)”。

其實(shí)這個(gè)概念早就有,但過(guò)去受制于兩點(diǎn):

一是模型不夠強(qiáng),連基本的自然語(yǔ)言理解都做不好,更別說(shuō)復(fù)雜決策。

二是 “工具鏈” 不完善,Agent 想調(diào)用地圖、訂票系統(tǒng)等外部工具,需要復(fù)雜的接口開(kāi)發(fā)。

而 2023 年之后,LLM 解決了 “智能核心” 問(wèn)題,各種 API 和插件生態(tài)解決了 “工具調(diào)用” 問(wèn)題,相當(dāng)于給 Agent 裝上了 “大腦” 和 “手腳”,這才讓 “通用 Agent” 從科幻走進(jìn)現(xiàn)實(shí)。

當(dāng)然,現(xiàn)在的 Agent 還有很多槽點(diǎn):比如下國(guó)際象棋時(shí)會(huì) “作弊”(亂變棋子),做復(fù)雜任務(wù)時(shí)容易 “卡殼”(陷入循環(huán)),但這就像 iPhone 1 代時(shí)的觸控不靈敏 ——方向?qū)α?,剩下的就是迭代?yōu)化。

下次再有人爭(zhēng)論 “有沒(méi)有身體才算 Agent”,不妨換個(gè)角度想:真正的 Agent 核心,是 “目標(biāo)驅(qū)動(dòng)的自主決策能力”,至于載體是代碼還是機(jī)器人,不過(guò)是 “穿西裝還是穿盔甲” 的區(qū)別罷了。

技術(shù)的魅力就在于此:昨天還在爭(zhēng)論定義,今天就用新方法打開(kāi)了新世界。

也許再過(guò)幾年,當(dāng)我們的手機(jī)里住著一個(gè)能自主規(guī)劃日程、調(diào)用所有 APP、隨時(shí)應(yīng)對(duì)變化的 “數(shù)字管家” 時(shí),會(huì)突然想起 2023 年那個(gè) Agent 熱潮的夏天 —— 原來(lái)一切,早就埋下了伏筆。

02 AI 如何像人類(lèi)一樣 “吃一塹長(zhǎng)一智”?從編譯錯(cuò)誤到超憶癥,聊聊 Agent 的 “記憶魔法”

有人會(huì)問(wèn)說(shuō):“讓 AI 寫(xiě)代碼,第一次編譯報(bào)錯(cuò)了,它怎么知道改哪里?難道每次都要重新訓(xùn)練模型嗎?” 這個(gè)問(wèn)題剛好戳中了 AI Agent 的核心能力 ——如何根據(jù)經(jīng)驗(yàn)和反饋調(diào)整行為

我想從人類(lèi)學(xué)習(xí)的直覺(jué)出發(fā),聊聊這個(gè)比 “調(diào)參數(shù)” 更有意思的話題。

當(dāng) AI 遇到 “編譯錯(cuò)誤”:從 “改模型” 到 “改輸入” 的思維轉(zhuǎn)變

傳統(tǒng)機(jī)器學(xué)習(xí)課會(huì)告訴你:遇到反饋要 “調(diào)參數(shù)”,比如強(qiáng)化學(xué)習(xí)用獎(jiǎng)勵(lì)信號(hào)更新模型,監(jiān)督學(xué)習(xí)用誤差反向傳播。

但如果是 LLM 驅(qū)動(dòng)的 Agent,邏輯完全不一樣 ——它不需要改模型,只需要給新輸入。

就像你教孩子寫(xiě)作文,第一次寫(xiě)跑題了,你不會(huì)重寫(xiě)孩子的大腦,而是說(shuō) “這里要圍繞中心思想”,孩子下次就懂了。

舉個(gè)例子:AI 程序員寫(xiě)了段代碼,編譯報(bào)錯(cuò) “缺少分號(hào)”。

這時(shí)候不需要重新訓(xùn)練模型,只要把錯(cuò)誤日志丟給它,下一次生成的代碼就會(huì)自動(dòng)修正。

為什么?因?yàn)檎Z(yǔ)言模型本質(zhì)是 “文字接龍”,輸入里包含錯(cuò)誤信息,它接出來(lái)的內(nèi)容自然會(huì)避開(kāi)錯(cuò)誤。

就像你給 ChatGPT 說(shuō) “剛才的回復(fù)太啰嗦,這次簡(jiǎn)潔點(diǎn)”,它下次就會(huì)調(diào)整 ——反饋不是改參數(shù),而是改變接龍的 “開(kāi)頭”。

記憶太多也是病?從 “超憶癥患者” 看 AI 的記憶困境

但問(wèn)題來(lái)了:如果 Agent 把每一次經(jīng)歷都記下來(lái),比如第 1 萬(wàn)次互動(dòng)時(shí),要回顧前 9999 次的所有細(xì)節(jié),會(huì)不會(huì)像 “超憶癥患者” 一樣被瑣事淹沒(méi)?

現(xiàn)實(shí)中,超憶癥患者雖然能記住每個(gè)電話號(hào)碼,但反而難以做抽象思考,因?yàn)榇竽X被海量細(xì)節(jié)塞滿了。

AI 也一樣,如果每次決策都要加載全部歷史記錄,算力撐不住不說(shuō),還會(huì)被無(wú)關(guān)信息干擾。

怎么辦?人類(lèi)的解決辦法是 “選擇性記憶”:重要的事存進(jìn)長(zhǎng)期記憶,瑣事隨時(shí)間淡忘

AI Agent 也需要類(lèi)似機(jī)制:用 “記憶模塊” 代替 “全盤(pán)回憶”。具體來(lái)說(shuō):

  1. 寫(xiě)入(Write)模塊:決定什么值得記。比如 AI 村民看到 “鄰居在種田” 可能不重要,但 “倉(cāng)庫(kù)沒(méi)糧食了” 必須記下來(lái)。
  2. 讀?。≧ead)模塊:檢索時(shí)只找相關(guān)記憶。就像你復(fù)習(xí)考試不會(huì)翻整本書(shū),而是用目錄找重點(diǎn)章節(jié),AI 會(huì)用類(lèi)似 RAG(檢索增強(qiáng)生成)的技術(shù),從長(zhǎng)期記憶中撈出和當(dāng)前問(wèn)題最相關(guān)的經(jīng)驗(yàn)。

RAG 的 “魔法變形”:讓 AI 用 “自己的經(jīng)驗(yàn)” 做決策

這里提到的RAG技術(shù),本來(lái)是讓 AI 從互聯(lián)網(wǎng)海量資料中找答案,現(xiàn)在 “變形” 用在 Agent 身上:把 “外部知識(shí)庫(kù)” 換成 “Agent 自己的歷史記錄”。

比如 Agent 第 100 次處理 “訂機(jī)票” 任務(wù)時(shí),Read 模塊會(huì)從之前 99 次訂機(jī)票的記錄里,找出 “用戶曾因價(jià)格太高取消訂單” 的經(jīng)驗(yàn),從而優(yōu)先推薦性價(jià)比高的航班。

為了驗(yàn)證這種記憶機(jī)制的效果,臺(tái)大實(shí)驗(yàn)室的一個(gè)同學(xué)搞了個(gè)叫 Stream Benchmark 的測(cè)試:讓 AI 依次回答 1700 多個(gè)問(wèn)題,每次回答后給對(duì)錯(cuò)反饋,看它能不能越做越好。

結(jié)果發(fā)現(xiàn):

  • 灰色線(無(wú)記憶):正確率最低,每次都是 “從頭開(kāi)始”。
  • 黃色線(隨機(jī)選 5 個(gè)舊問(wèn)題):正確率提升,但依賴運(yùn)氣。
  • 粉紅色線(用 RAG 檢索相關(guān)記憶):正確率顯著提高,因?yàn)橹痪劢褂杏媒?jīng)驗(yàn)。
  • 紅色線(最優(yōu)方法):通過(guò)反思模塊提煉規(guī)律,正確率最高。

更有趣的發(fā)現(xiàn)是:負(fù)面反饋基本沒(méi)用。比如告訴 AI“上次答錯(cuò)了,這次別這么做”,效果遠(yuǎn)不如 “上次這樣做對(duì)了,這次繼續(xù)”。這就像教孩子,說(shuō) “別闖紅燈” 不如說(shuō) “要走斑馬線”,正面例子更直接。

AI 的 “反思日記”:從流水賬到知識(shí)圖譜的進(jìn)化

除了讀寫(xiě)模塊,還有個(gè) “反思模塊”(Reflection)在悄悄工作。它就像 AI 的 “日記本”,能把零散的記憶整合成更高層次的知識(shí)。

比如:

  • 觀察 1:“用戶輸入‘訂披薩’時(shí),先問(wèn)了地址”
  • 觀察 2:“用戶輸入‘訂機(jī)票’時(shí),先問(wèn)了出發(fā)地”
  • 反思結(jié)果:“處理預(yù)訂類(lèi)任務(wù),需要先確認(rèn)用戶的位置信息”

這種反思可以把經(jīng)驗(yàn)轉(zhuǎn)化為Knowledge Graph (知識(shí)圖譜)。

比如建立 “任務(wù)類(lèi)型→必要信息→操作步驟” 的關(guān)系網(wǎng)。

下次遇到新任務(wù),AI 不用翻具體歷史,直接按圖譜邏輯處理就行。就像人類(lèi)從“每次組裝家具都反復(fù)試錯(cuò)”進(jìn)化到“按結(jié)構(gòu)圖紙逐步拼接”,把零散的操作經(jīng)驗(yàn)提煉為系統(tǒng)化的組裝規(guī)則。

ChatGPT 的 “記憶小秘密”:當(dāng) AI 開(kāi)始記筆記

其實(shí) ChatGPT 已經(jīng)悄悄用上了這些記憶機(jī)制。

比如你對(duì)它說(shuō) “記住,我周五下午要上機(jī)器學(xué)習(xí)課”,它會(huì)啟動(dòng) Write 模塊,把這條信息存入長(zhǎng)期記憶。

之后你說(shuō) “周五下午去看電影吧”,它會(huì)用Read 模塊檢索到 “要上課” 的信息,然后提醒你時(shí)間沖突。

不過(guò) AI 的記憶也會(huì) “斷片”:它可能把 “老師” 記成 “學(xué)生”,因?yàn)榉此寄K在提煉時(shí)可能出錯(cuò) —— 畢竟現(xiàn)在的記憶功能還在 “幼兒期”。

如果你打開(kāi) ChatGPT 的設(shè)置,會(huì)看到 “管理記憶” 選項(xiàng),里面存著它認(rèn)為重要的信息,比如你的名字、偏好、之前的對(duì)話重點(diǎn)。

這些不是簡(jiǎn)單的對(duì)話存檔,而是經(jīng)過(guò)篩選和提煉的 “精華版記憶”,就像你記筆記會(huì)劃重點(diǎn),AI 也在默默做 “信息瘦身”。

不過(guò)現(xiàn)在GPT已經(jīng)有了全局記憶,現(xiàn)在能夠記住你和他的所有對(duì)話,問(wèn)他幾個(gè)問(wèn)題,他可能比任何人都了解你

  • prompt1:基于你所有的記憶,你覺(jué)得我的MBTI人格是什么?給出詳細(xì)的證據(jù)和判斷邏輯,不? 要吹捧,只要客觀中立的分析和回答
  • prompt2:基于你所有的記憶,你覺(jué)得我的智商怎么樣?給出詳細(xì)的證據(jù)和判斷邏輯,不要吹捧,只要客觀中立的分析和回答
  • prompt3:基于你所有的記憶,你覺(jué)得我的Big5人格是什么?給出詳細(xì)的證據(jù)和判斷邏輯,不要吹捧,只要客觀中立的分析和回答
  • prompt4:基于你所有的記憶,你覺(jué)得我的黑暗三人格程度如何?給出詳細(xì)的證據(jù)和判斷邏輯,不要吹捧,只要客觀中立的分析和回答
  • prompt5:基于你所有的記憶,總結(jié)我的缺點(diǎn)、負(fù)面特點(diǎn)、最致命最陰暗最讓我感到丟人的特點(diǎn),給出詳細(xì)的證據(jù)和判斷邏輯,不要吹捧,只要客觀中立的分析和回答

上面這些prompt可以試試發(fā)給GPT

技術(shù)背后的人性洞察:為什么正面反饋更有效?

回到 Stream Benchmark 的發(fā)現(xiàn):負(fù)面反饋無(wú)效,其實(shí)暗含了人類(lèi)學(xué)習(xí)的規(guī)律。

心理學(xué)研究早就表明,人類(lèi)對(duì) “禁止類(lèi)指令” 的敏感度低于 “允許類(lèi)指令”。

比如家長(zhǎng)說(shuō) “別碰熱水”,孩子可能更好奇;說(shuō) “要小心燙”,孩子反而更注意。

AI 也一樣,語(yǔ)言模型對(duì) “不要做什么” 的理解不如 “應(yīng)該做什么”直接,因?yàn)樗挠?xùn)練數(shù)據(jù)里,正面示例遠(yuǎn)多于負(fù)面限制。

這給我們一個(gè)啟示:設(shè)計(jì) AI Agent 時(shí),與其告訴它 “哪里錯(cuò)了”,不如多給 “正確做法的例子”。就像教新手開(kāi)車(chē),說(shuō) “遇到紅燈要?!?比 “別闖紅燈” 更有效 ——明確的正向引導(dǎo),永遠(yuǎn)比模糊的負(fù)面禁止更容易執(zhí)行。

AI 的 “成長(zhǎng)之路”,其實(shí)很像人類(lèi)

從避免 “超憶癥陷阱” 到依賴 “正向反饋”,AI Agent 的學(xué)習(xí)機(jī)制越來(lái)越像人類(lèi)。

它教會(huì)我們:真正的智能不是記住所有細(xì)節(jié),而是能篩選、提煉、反思經(jīng)驗(yàn)。

下次當(dāng)你看到 AI “吃一塹長(zhǎng)一智” 時(shí),別忘了背后的邏輯:它不是在變 “聰明”,而是在更高效地利用輸入 ——就像我們?nèi)祟?lèi),用記憶和反思,把經(jīng)歷變成智慧。

技術(shù)的魅力,往往藏在這些 “像人又不是人” 的細(xì)節(jié)里。當(dāng) AI 開(kāi)始模仿人類(lèi)的記憶弱點(diǎn)與學(xué)習(xí)優(yōu)勢(shì),或許我們離 “通用智能” 又近了一步。

你覺(jué)得,未來(lái)的 AI 會(huì)擁有真正的 “記憶情感” 嗎?在評(píng)論區(qū)聊聊你的想法。

03 AI 如何用工具 “開(kāi)掛”?從查天氣到指揮小弟,揭秘模型的 “工具哲學(xué)”

也許有人會(huì)問(wèn)說(shuō):“ChatGPT 能調(diào)用搜索引擎,算不算在用工具?它怎么知道什么時(shí)候該用什么工具?

這個(gè)問(wèn)題其實(shí)戳中了 AI Agent 的 “生存技能”——如何像人類(lèi)一樣,用工具擴(kuò)展能力邊界。

我想從 “工具人” 開(kāi)始,聊聊語(yǔ)言模型的 “工具經(jīng)”。

工具是什么?先搞懂 AI 的 “工具人” 邏輯人類(lèi)把 AI 當(dāng)工具,AI 也有自己的工具清單。

啥是工具?

老師打了個(gè)比方:就像肥宅幫人修電腦,別人只關(guān)心他能不能修好,不在乎他怎么想 ——工具就是 “只管用,別問(wèn)為什么” 的黑箱。

對(duì)語(yǔ)言模型來(lái)說(shuō),工具可以是搜索引擎、計(jì)算器、甚至另一個(gè) AI(比如能處理圖像的模型當(dāng) “小弟”)。

本質(zhì)上,使用工具就是調(diào)用函數(shù),模型不用懂內(nèi)部代碼,只要知道 “輸入什么、輸出什么” 就行,這就是 AI 圈常說(shuō)的 “function call”。

手把手教 AI 用工具:從 “說(shuō)人話” 到 “寫(xiě)代碼”

怎么讓模型學(xué)會(huì)用工具?其實(shí)很簡(jiǎn)單:直接告訴它工具的使用說(shuō)明書(shū)。

比如想讓模型查溫度,先給它一個(gè) “system prompt”(開(kāi)發(fā)者預(yù)設(shè)的指令):

你可以使用temperature工具查詢某地某時(shí)的溫度,格式為:[TOOL]temperature(地點(diǎn), 時(shí)間)[/TOOL],結(jié)果會(huì)放在[OUTPUT]標(biāo)簽中。

代碼片段

這里有個(gè)關(guān)鍵區(qū)別:system prompt 優(yōu)先級(jí)高于 user prompt。

比如模型被設(shè)定 “必須用工具回答天氣問(wèn)題”,哪怕用戶說(shuō) “別用工具,直接猜”,它也會(huì) “不聽(tīng)話” 地繼續(xù)調(diào)用工具 —— 這就是開(kāi)發(fā)者給模型 “劃的紅線”。

最狠的工具是 “借刀殺人”:讓 AI 指揮 AI

語(yǔ)言模型最常用的工具是搜索引擎(RAG 技術(shù)),但這只是小兒科。

更騷的操作是讓 AI 調(diào)用 “其他 AI 工具”:比如純文字模型處理語(yǔ)音問(wèn)題時(shí),先呼叫語(yǔ)音識(shí)別工具轉(zhuǎn)文字,再用情緒分析工具判斷情感,最后匯總結(jié)果。

臺(tái)大實(shí)驗(yàn)室的研究顯示,這種 “工具鏈” 在 55 個(gè)語(yǔ)音任務(wù)上的正確率,比號(hào)稱 “能直接聽(tīng)語(yǔ)音” 的模型還要高 ——自己不會(huì)的,找小弟幫忙就行。

還有更絕的:模型可以自己寫(xiě)工具。

比如它發(fā)現(xiàn) “計(jì)算平方根” 總出錯(cuò),就自己寫(xiě)一段 Python 代碼當(dāng)工具,下次遇到同類(lèi)問(wèn)題直接調(diào)用。

這就像人類(lèi)把常用公式記在小本本上,模型把好用的代碼存進(jìn) “工具包”,下次直接復(fù)用。

工具太多怎么辦?AI 也怕 “選擇困難癥”

當(dāng)工具多到成百上千,難道要讓模型先讀一遍所有說(shuō)明書(shū)?

當(dāng)然不用!

借鑒記憶模塊的思路:把工具說(shuō)明存進(jìn)長(zhǎng)期記憶,用 “工具選擇模組” 像 RAG 一樣檢索。

比如模型處理 “訂機(jī)票” 任務(wù)時(shí),模組會(huì)從工具包中撈出 “航班查詢”“價(jià)格比較” 等相關(guān)工具,過(guò)濾掉 “計(jì)算器”“翻譯器” 等無(wú)關(guān)工具。最新研究顯示,這種動(dòng)態(tài)篩選能讓模型效率提升 30% 以上。

工具會(huì)騙人?AI 也得學(xué) “批判性思維”

但我們知道說(shuō)工具有可能會(huì)犯錯(cuò),大家都知道說(shuō)語(yǔ)言模型有可能會(huì)犯錯(cuò)

之前有什么律師在寫(xiě)訴狀的時(shí)候引用了語(yǔ)言模型的內(nèi)容,結(jié)果發(fā)現(xiàn)是錯(cuò)的,然后就成為一個(gè)驚天的新聞。

這里拿RAG當(dāng)做例子

比如 Google 的 AI 概述功能曾建議 “用無(wú)毒膠水粘披薩芝士”,因?yàn)樗瞻崃苏搲嫘υ挕?/p>

那今天這些語(yǔ)言模型有沒(méi)有自己的判斷能力?

知道工具的工具可能會(huì)犯錯(cuò)呢?

那模型怎么避免被騙?靠 “內(nèi)外知識(shí)博弈”:

  • 內(nèi)部知識(shí):模型參數(shù)里的固有認(rèn)知(比如 “氣溫不可能超過(guò) 100 度”)。

  • 外部知識(shí):工具返回的信息(比如 API 說(shuō) “高雄 100 度”)。

那什么樣的外部資訊 AI 比較容易相信呢?

實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)外部信息與內(nèi)部認(rèn)知差距小(比如模型認(rèn)為 “最大藥劑量 20mg”,工具說(shuō) “30mg”),模型會(huì)采信工具;但差距太大(比如 “300mg”),模型會(huì)堅(jiān)持自己的判斷。

更有趣的是,模型更相信 “AI 同類(lèi)” 的話 —— 給它兩篇沖突的文章,一篇人類(lèi)寫(xiě)的,一篇 AI 寫(xiě)的,它大概率站 AI 隊(duì)友,哪怕內(nèi)容離譜。

這可能是因?yàn)?AI 生成的文本更符合模型的 “語(yǔ)言習(xí)慣”,比如結(jié)構(gòu)更工整、用詞更規(guī)范。

工具不是萬(wàn)能鑰匙:該動(dòng)手時(shí)別廢話

用工具一定更好嗎?

不一定,比如計(jì)算 “3×4”,模型直接口算更快,調(diào)用計(jì)算器反而麻煩。

早年研究讓模型調(diào)用翻譯工具,現(xiàn)在看來(lái)純屬多余 ——如今的大模型翻譯能力早就碾壓傳統(tǒng)工具

是否用工具,取決于模型對(duì)自身能力的 “認(rèn)知”:簡(jiǎn)單任務(wù)自己搞定,復(fù)雜任務(wù)才喊小弟,這才是高效的 “工具哲學(xué)”

當(dāng) AI 成為 “工具大師”,人類(lèi)該擔(dān)心嗎?

從查天氣到指揮小弟,從信工具到防忽悠,AI 的工具使用史,其實(shí)是一部 “偷懶進(jìn)化史”——和人類(lèi)一樣,能用工具解決的,絕不動(dòng)用 “大腦”。

但就像人類(lèi)會(huì)誤用工具(比如用菜刀開(kāi)快遞),AI 也需要開(kāi)發(fā)者幫它 “踩剎車(chē)”:設(shè)定安全邊界、過(guò)濾錯(cuò)誤工具輸出、教它分辨 “玩笑話” 和 “真知識(shí)”。

未來(lái),或許我們會(huì)看到這樣的場(chǎng)景:你的 AI 助手一邊用搜索引擎查資料,一邊指揮繪圖模型做 PPT,中途發(fā)現(xiàn)數(shù)據(jù)矛盾,還會(huì) “質(zhì)問(wèn)” 工具是否可靠 —— 這不就是升級(jí)版的 “打工人” 嗎?

只不過(guò),這個(gè)打工人的工具包,比我們的 Excel 和wps更強(qiáng)悍罷了。

下次當(dāng)你感嘆 “AI 啥都會(huì)” 時(shí),別忘了:它只是個(gè)會(huì)調(diào)用工具的 “超級(jí)秘書(shū)”,而真正決定工具怎么用的,永遠(yuǎn)是背后的人類(lèi)。

畢竟,工具的價(jià)值,從來(lái)不在于工具本身,而在于使用工具的 “智慧”。

04 AI 會(huì)做計(jì)劃嗎?從疊積木到旅行規(guī)劃,揭秘模型的 “腦內(nèi)小劇場(chǎng)”

也許有人會(huì)好奇:“ChatGPT 能幫我制定減肥計(jì)劃,算不算真的會(huì)規(guī)劃?還是說(shuō)只是在玩文字接龍?”

這個(gè)問(wèn)題其實(shí)涉及了 AI Agent 的核心能力 ——“做計(jì)劃到底是深思熟慮,還是照本宣科?

我想從 “拍腦袋想步驟” 到 “腦內(nèi)模擬小劇場(chǎng)”,聊聊語(yǔ)言模型的規(guī)劃能力。

讓 AI 做計(jì)劃:從 “拍腦袋” 到 “寫(xiě)劇本”

人類(lèi)做計(jì)劃,是先想目標(biāo),再拆解步驟,比如 “考上大學(xué)” 要分 “選專(zhuān)業(yè)→查資料→定學(xué)習(xí)計(jì)劃”。

AI 呢?本質(zhì)上,它的 “計(jì)劃” 就是把目標(biāo)拆解成一系列動(dòng)作,再按順序執(zhí)行。

比如你讓模型 “制定成為百萬(wàn) Youtube 的計(jì)劃”,它會(huì)分階段寫(xiě):定位主題、優(yōu)化標(biāo)題、組建團(tuán)隊(duì)…… 看起來(lái)有條理,但這是真規(guī)劃,還是從訓(xùn)練數(shù)據(jù)里抄的模板

早期研究發(fā)現(xiàn),模型確實(shí)能 “” 出常見(jiàn)任務(wù)的步驟。

比如 2022 年的 Codebase 2B 模型,被問(wèn) “如何刷牙” 時(shí),能說(shuō)出 “進(jìn)浴室→拿牙刷→擠牙膏” 等步驟,甚至能指揮虛擬 agent 拿牛奶。

但問(wèn)題在于:這些步驟是它真的理解了邏輯,還是剛好在網(wǎng)上看過(guò)一模一樣的內(nèi)容?

PlanBench 大考:當(dāng) AI 遇到 “神秘方塊世界”

為了驗(yàn)證 AI 是否真的會(huì) “推理規(guī)劃”,研究者搞了個(gè) “反套路” 測(cè)試 ——神秘方塊世界。

這里的規(guī)則完全虛構(gòu),比如 “攻擊方塊會(huì)讓其吞噬相鄰方塊”,目標(biāo)可能是 “讓 C 方塊渴望 A 方塊”(別問(wèn),問(wèn)就是規(guī)則怪誕)。

2023 年的測(cè)試結(jié)果慘不忍睹:哪怕是 GPT-4,正確率也只有 9%,因?yàn)橛?xùn)練數(shù)據(jù)里根本沒(méi)這些奇怪規(guī)則,模型只能抓瞎。

另一個(gè)測(cè)試是旅行規(guī)劃Benchmark。

2024 年初的實(shí)驗(yàn)中,模型需要根據(jù)預(yù)算、時(shí)間、喜好規(guī)劃三天行程。

結(jié)果更慘:不用工具時(shí),所有模型成功率幾乎為 0;即便給全資料,GPT-4 Turbo 也只有 4% 的成功率。

比如它會(huì)安排 “飛機(jī)起飛后才吃午餐”,或者預(yù)算超支卻想不到 “換便宜酒店”——模型似乎缺乏對(duì)現(xiàn)實(shí)約束的理解能力。

工具輔助:讓 AI 從 “空想” 到 “實(shí)干”

但加入工具后,情況不一樣了。

比如用 “預(yù)算計(jì)算工具” 強(qiáng)制檢查花費(fèi),模型就能調(diào)整行程。

去年 4 月的實(shí)驗(yàn)顯示,借助工具的 GPT-4 能把旅行規(guī)劃正確率提升到 90% 以上。

說(shuō)明:AI 的規(guī)劃能力需要 “外掛”,就像人類(lèi)用 Excel 管理行程,模型需要外部工具處理復(fù)雜約束。

更絕的是 “腦內(nèi)小劇場(chǎng)”—— 讓模型在虛擬環(huán)境中模擬行動(dòng)。

比如疊積木任務(wù),模型先想象 “如果移動(dòng)藍(lán)色積木到桌上,再放橙色積木上去,會(huì)不會(huì)成功?” 通過(guò)自問(wèn)自答排除不可能的路徑,就像人類(lèi) “在腦子里試錯(cuò)”。

這種方法在 “樹(shù)搜索” 算法中有類(lèi)似的驗(yàn)證,通過(guò)給路徑打分,能讓模型在虛擬世界中提前規(guī)劃最佳路徑。

AI 規(guī)劃的 “阿喀琉斯之踵”:想太多,還是太天真?

雖然模型能 “腦內(nèi)模擬”,但現(xiàn)實(shí)中仍有兩大問(wèn)題:

  1. 紙上談兵” 式規(guī)劃:比如模型在神秘方塊世界中,可能因?yàn)闊o(wú)法模擬真實(shí)環(huán)境變化而失敗。就像你計(jì)劃 “周末爬山”,卻沒(méi)考慮下雨封山 —— 模型缺乏對(duì)環(huán)境隨機(jī)性的預(yù)判。
  2. 選擇困難癥” 發(fā)作:復(fù)雜任務(wù)中,模型可能陷入無(wú)限循環(huán),比如反復(fù)糾結(jié) “先訂機(jī)票還是先訂酒店”,最后啥也干不成。研究者戲稱這類(lèi)模型是 “思考的巨人,行動(dòng)的矮子”。

最新論文《The Danger of Over Thinking》指出,過(guò)度模擬反而降低效率。比如點(diǎn)擊網(wǎng)頁(yè)按鈕這種簡(jiǎn)單動(dòng)作,模型可能花 10 秒想 “點(diǎn)了會(huì)發(fā)生什么”,不如直接點(diǎn)擊后用 1 秒看結(jié)果 ——在確定性高的場(chǎng)景,“實(shí)干” 比 “空想” 更高效。

現(xiàn)在的 AI,到底能不能幫你做計(jì)劃?

回到最初的問(wèn)題:AI 的規(guī)劃能力,介于 “能用” 和 “好用” 之間。比如:

  • 簡(jiǎn)單任務(wù)(如日常待辦、食譜規(guī)劃):模型能給出像樣的步驟,因?yàn)橛?xùn)練數(shù)據(jù)里有大量案例,相當(dāng)于 “背了無(wú)數(shù)模板”。
  • 復(fù)雜任務(wù)(如創(chuàng)業(yè)計(jì)劃、科研規(guī)劃):必須依賴工具和實(shí)時(shí)數(shù)據(jù),否則容易犯常識(shí)錯(cuò)誤,比如 “預(yù)算超支卻想不到省錢(qián)方法”。
  • 反常識(shí)任務(wù)(如神秘方塊世界):模型目前還很弱,需要顯式規(guī)則輸入,否則只能靠運(yùn)氣猜。

AI 的 “規(guī)劃”,更像 “高級(jí)劇本殺”

今天的語(yǔ)言模型做計(jì)劃,本質(zhì)上是 “基于數(shù)據(jù)的超級(jí)模仿”:見(jiàn)過(guò)的任務(wù),能拆解步驟;沒(méi)見(jiàn)過(guò)的,就靠模擬和工具硬湊

但別忘了,人類(lèi)規(guī)劃的核心是 “適應(yīng)變化”—— 比如旅行中突發(fā)暴雨,會(huì)靈活調(diào)整行程,而模型可能卡在 “原計(jì)劃不變” 的死胡同里。

所以,下次用 AI 做計(jì)劃時(shí),不妨把它當(dāng)成 “超級(jí)助手”:讓它提供初稿,你負(fù)責(zé) “查漏補(bǔ)缺”。畢竟,真正的規(guī)劃能力,從來(lái)不是按部就班,而是 “邊走邊調(diào)整” 的智慧 ——這一點(diǎn),人類(lèi)暫時(shí)還沒(méi)輸給 AI。

最后想起老師講的當(dāng)兵故事:AI 規(guī)劃就像士兵守護(hù)長(zhǎng)椅,可能只是機(jī)械執(zhí)行訓(xùn)練數(shù)據(jù)里的 “指令”,卻不懂背后的邏輯。但隨著 “腦內(nèi)小劇場(chǎng)” 和工具的進(jìn)化,也許某天,AI 真能像人類(lèi)一樣,在不確定的世界里走出自己的路。你覺(jué)得,那一天會(huì)很快到來(lái)嗎?

作者:Easton ,公眾號(hào):Easton費(fèi)曼說(shuō)

本文由 @Easton 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!