吳恩達(dá)最新演講:AI智能代理工作流的趨勢(shì)(觀點(diǎn)解讀與演講全文)

0 評(píng)論 6277 瀏覽 93 收藏 25 分鐘

在紅杉資本AI峰會(huì)第三期,吳恩達(dá)教授分享了對(duì)智能體工作流的看法。在本次演講中,他談到了AI agentic workflow,也就是智能體工作流的迭代模式,以及基于人工評(píng)估基準(zhǔn)測(cè)試的效果分析,還談到了自己對(duì)于AI智能體設(shè)計(jì)模式的四種分類,包括反思、工具使用、規(guī)劃、多智能體協(xié)作。與此同時(shí),吳恩達(dá)還分享了它對(duì)AI智能體的未來發(fā)展?jié)摿Φ恼雇?/p>

吳恩達(dá)指出,隨著AI技術(shù)的發(fā)展,AI代理被視為一個(gè)能顯著提升軟件開發(fā)效率和質(zhì)量的工具。

他通過展示AI代理如何在主動(dòng)型工作流中超越單獨(dú)模型的局限,以及多代理系統(tǒng)如何通過協(xié)作來解決復(fù)雜問題,強(qiáng)化了這一觀點(diǎn)。

他認(rèn)為,在未來,我們將看到AI代理在各種工作流程中發(fā)揮更大的作用,并且這些代理的性能和應(yīng)用范圍將不斷擴(kuò)大。

對(duì)此,人們需要學(xué)會(huì)重新設(shè)定與AI合作的期望,并充分利用AI代理快速迭代的優(yōu)勢(shì)。

吳恩達(dá)還預(yù)測(cè)了AI工作流程的擴(kuò)展,并討論了人類需要適應(yīng)與AI代理交互的新方式。

吳恩達(dá)介紹了 AI 智能代理工作流的四種設(shè)計(jì)模式:

  1. 反思(Reflection):LLM 檢查自己的工作,以提出改進(jìn)方法。
  2. 工具使用(Tool use):LLM 擁有網(wǎng)絡(luò)搜索、代碼執(zhí)行或任何其他功能來幫助其收集信息、采取行動(dòng)或處理數(shù)據(jù)。
  3. 規(guī)劃(Planning):LLM 提出并執(zhí)行一個(gè)多步驟計(jì)劃來實(shí)現(xiàn)目標(biāo)(例如,撰寫論文大綱、進(jìn)行在線研究,然后撰寫草稿……)。
  4. 多智能體協(xié)作(Multi-agent collaboration):多個(gè) AI 智能代理一起工作,分配任務(wù)并討論和辯論想法,以提出比單個(gè)智能體更好的解決方案。

關(guān)鍵結(jié)論及其論據(jù)支撐:

結(jié)論 1: 主動(dòng)型工作流中的AI代理可以產(chǎn)生比傳統(tǒng)工作流更好的結(jié)果。

論據(jù):

吳恩達(dá)個(gè)人實(shí)際操作時(shí)觀察到的效果出人意料。

GPT-3.5在主動(dòng)型工作流中表現(xiàn)得甚至比GPT-4還好,盡管GPT-4在零次提示下有更高的成功率。

結(jié)論 2: 多代理協(xié)作是提高AI性能的有效策略。

論據(jù):

設(shè)計(jì)模式包括代碼代理和批判代理的合作,這種模式易于實(shí)施且通用。

實(shí)驗(yàn)顯示多代理通過協(xié)作編寫代碼、測(cè)試和迭代可以生成復(fù)雜的程序。

結(jié)論 3: AI代理的運(yùn)用將擴(kuò)大人工智能可執(zhí)行任務(wù)的范圍。

論據(jù):

吳恩達(dá)期待由于代理工作流程的存在,今年AI能完成的任務(wù)集會(huì)大幅拓展。

已經(jīng)存在的不同設(shè)計(jì)模式(反思、工具使用、規(guī)劃和多代理協(xié)作)表明,AI代理的應(yīng)用正變得越來越精細(xì)和廣泛。

結(jié)論 4: 快速迭代在AI代理的使用中是關(guān)鍵,甚至可能比慢速迭代的更高質(zhì)量模型結(jié)果更好。

論據(jù):

LLM快速生成Token對(duì)于多代理工作流程至關(guān)重要,因?yàn)樾枰粩嗟?/p>

即使是質(zhì)量較低的LLM,只要迭代速度足夠快,也可能產(chǎn)生比慢速生成Token的更高質(zhì)量模型更好的結(jié)果。

結(jié)論 5: 人們需要適應(yīng)耐心等待AI代理完成任務(wù)的方式。

論據(jù):

目前人們習(xí)慣于搜索引擎式的即時(shí)回應(yīng),但與AI代理的合作需要時(shí)間來產(chǎn)生最佳結(jié)果。

這種適應(yīng)是提高與AI代理合作效率的必要步驟。

下面是演講全文:

《Agentic Reasoning》

我很期待與大家分享我對(duì)AI代理的看法,這是一個(gè)我認(rèn)為所有從事AI開發(fā)的人都應(yīng)該關(guān)注的令人興奮的趨勢(shì),同時(shí)我也對(duì)其他的內(nèi)容感到興奮。

接下來的演示會(huì)是怎樣呢?現(xiàn)在我們大多數(shù)人使用AI代理的方式就像一個(gè)小企業(yè)那樣,帶著一種非主動(dòng)性的工作流程,你輸入一個(gè)問題它就生成答案。這有點(diǎn)像你讓一個(gè)人寫一篇論文,然后說“請(qǐng)坐到鍵盤前,從頭到尾打出這篇論文,而且不許用退格鍵”。

盡管這很難,但LLM實(shí)際上做得相當(dāng)好。相比之下,在主動(dòng)型工作流中,情況可能是這樣的:AI會(huì)說,“寫一個(gè)論文提綱。你自己需要做進(jìn)一步的調(diào)研嗎?那我們開始吧。然后寫第一稿,再讀你自己的第一稿,考慮哪些部分需要修改,然后修改你的草稿,如此反復(fù)?!?/p>

這種工作流程更加迭代,你可能需要AI做一些思考,然后修改文章,再做一些思考,這個(gè)過程重復(fù)多次。而許多人沒有意識(shí)到的是,這實(shí)際上能得到顯著更好的結(jié)果。

我自己實(shí)際操作這些主動(dòng)型工作流時(shí),也非常驚訝它們的效果。

除非你想要一個(gè)案例研究,我的團(tuán)隊(duì)使用一種名為“人類智能基準(zhǔn)測(cè)試”的代碼標(biāo)準(zhǔn)來分析數(shù)據(jù),這個(gè)標(biāo)準(zhǔn)是由OpenAI幾年前發(fā)布的。

這里面包含了編碼問題,比如“給定一個(gè)非空整數(shù)列表,返回所有奇數(shù)元素或未偶數(shù)位置上的元素的總和”。結(jié)果是你的代碼片段就像這樣。

今天我們很多人會(huì)使用零次提示,意思是我們告訴AI“寫代碼”并讓它在第一部分運(yùn)行,比如誰調(diào)用了代碼,我知道人類不會(huì)那樣寫代碼,我們應(yīng)該把代碼打出來。也許你可以做到,但我做不到。事實(shí)證明,如果你使用GPT-3.5零次提示,它的成功率是48%,而GPT-4的表現(xiàn)則好得多,成功率達(dá)到67.7%。

但如果你采用一個(gè)主動(dòng)型工作流環(huán)繞GPT-3.5,實(shí)際上它甚至比GPT-4做得還好。如果你將這種類型的工作流環(huán)繞在GPT-4周圍,它也表現(xiàn)得很好。

你會(huì)注意到,在主動(dòng)型工作流中GPT-3.5實(shí)際上比GPT-4的表現(xiàn)更好。我認(rèn)為這意味著非常重要的后果,我認(rèn)為這將改變我們所有人構(gòu)建應(yīng)用程序的方法。所以“代理”這個(gè)術(shù)語被廣泛地討論,許多咨詢報(bào)告都在談?wù)揂I的未來等等。

我想更具體地與大家分享我觀察到的廣泛設(shè)計(jì)模式和代理。這是一個(gè)非常混亂、無序的領(lǐng)域,有大量的研究和開源項(xiàng)目。有很多事情正在發(fā)生,但我試圖將其歸類得更具體一些。經(jīng)歷了代理反思這個(gè)工具,我認(rèn)為我們中的許多人都在使用它,它確實(shí)有效。我認(rèn)為這是公認(rèn)的技術(shù)。當(dāng)我使用它們的時(shí)候,我?guī)缀蹩偰茏屗鼈冋9ぷ鳌?/p>

計(jì)劃和多代理協(xié)作,我認(rèn)為這些更是新興的內(nèi)容。當(dāng)我使用它們時(shí),有時(shí)我會(huì)對(duì)它們的效果感到震驚。但至少在目前,我感覺我不能總是可靠地讓它們工作。

所以讓我通過幾張幻燈片來介紹這四種設(shè)計(jì)模式。如果你們中的一些人回去讓你們的工程師使用它們,我認(rèn)為你們很快就會(huì)獲得生產(chǎn)力的提升。

所以關(guān)于反思,這里有一個(gè)例子。假設(shè)我要求一個(gè)系統(tǒng),請(qǐng)為我編寫一個(gè)特定任務(wù)的代碼。然后我們有一個(gè)代碼代理,只是一個(gè)你提示編寫代碼的LLM,比如定義一個(gè)任務(wù)函數(shù)。

自我反思的一個(gè)例子是,如果你隨后用類似的提示向LLM提問,例如這里有一段代碼是為一個(gè)任務(wù)準(zhǔn)備的,然后將剛剛生成的完全相同的代碼反饋給它,并仔細(xì)檢查代碼的正確性和效率。

對(duì)他們來說,這是一個(gè)很好的建設(shè)性反饋。結(jié)果表明,同一個(gè)LLM在你提示它編寫代碼后,可能會(huì)發(fā)現(xiàn)第五行的問題并修復(fù)它。如果你現(xiàn)在拿它自己的反饋提示它,它可能會(huì)生成一個(gè)第二版的代碼,可能比第一版的代碼工作得更好,雖然不能保證,但這足夠經(jīng)常發(fā)生,值得在很多應(yīng)用程序中嘗試。

為了預(yù)示即將使用的內(nèi)容。如果你讓它運(yùn)行單元測(cè)試,如果它沒通過單元測(cè)試,那你就問它為什么沒通過單元測(cè)試?

進(jìn)行這樣的對(duì)話。我們將找出為什么沒通過單元測(cè)試,所以嘗試改變一些東西,最終提出解決方案。

順便說一句,對(duì)于那些想要了解更多關(guān)于這些技術(shù)的人,我對(duì)每個(gè)部分都有很高的評(píng)價(jià),在底部有一個(gè)推薦閱讀部分,整個(gè)圖表是更多參考資料。

我猜我描述的代理系統(tǒng)是一個(gè)你提示它的單一代碼代理?

這個(gè)想法的一個(gè)自然演變是,不是一個(gè)單一的代碼代理,你可以有兩個(gè)代理,其中一個(gè)是代碼代理,另一個(gè)是批判代理。這些可能是相同的基礎(chǔ)LLM模型,但你以不同的方式提示它們。

我們說,一個(gè)你是專家級(jí)的編碼者,編寫代碼。

另一個(gè)說,你是專家級(jí)的代碼審查員,審查代碼。

這種工作流程實(shí)際上很容易實(shí)施。

我認(rèn)為這是一個(gè)非常通用的技術(shù),對(duì)于很多工作流程來說,這將大幅提升你的LLM性能。

第二個(gè)設(shè)計(jì)模式是使用工具。

你們中已經(jīng)有人見過LLM系統(tǒng)使用工具了,左邊是Copilot的截圖,右邊是從GPT-4中提取的東西。

但是今天的 LLM,如果你問,最好的咖啡機(jī)是什么?

你可以進(jìn)行網(wǎng)絡(luò)檢索,對(duì)于某些問題,LLM 會(huì)生成代碼并運(yùn)行代碼。

事實(shí)證明,有許多不同的工具被許多不同的人用于分析,收集信息以采取行動(dòng),提高個(gè)人生產(chǎn)力。

事實(shí)證明,早期的許多工具在計(jì)算機(jī)視覺社區(qū)的使用,因?yàn)樵诖笮驼Z言模型出現(xiàn)之前,他們不能對(duì)圖像做任何事情。

因此,唯一的選擇是讓 LLM 生成一個(gè)可以操作圖像的函數(shù)調(diào)用,例如生成圖像或進(jìn)行對(duì)象檢測(cè)等。因此,如果你真正看一下文獻(xiàn),就會(huì)發(fā)現(xiàn)有趣的是,工具使用方面的大部分工作似乎都源于視覺。因?yàn)長(zhǎng)LM之前對(duì)圖像視而不見,GPT-4v 和,以及 Lava 等等。這就是工具的使用,它擴(kuò)展了LLM的能力。

第三個(gè),就是計(jì)劃。

對(duì)于那些還沒真玩過很多規(guī)劃算法的人來說,,我覺得很多人都在談?wù)揅hatGPT時(shí)刻,你會(huì)發(fā)現(xiàn),哇,無法想象人工智能代理能夠這樣做。

我認(rèn)為如果你沒有使用過規(guī)劃算法,很多人都會(huì)有一種人工智能代理。我無法想象人工智能代理會(huì)這樣做。

因此,我運(yùn)行了現(xiàn)場(chǎng)演示,其中出現(xiàn)了一些故障,并且人工智能代理圍繞故障重新規(guī)劃。事實(shí)上,我有過很多這樣的時(shí)刻,哇,我不敢相信我的人工智能系統(tǒng)能夠自主地做到這一點(diǎn)。

但是,我改編自一篇擁抱GPT 論文的例子,你說,請(qǐng)生成一張女孩的圖像。其中女孩正在讀書,并且它發(fā)布的內(nèi)容與圖像中的男孩相同,例如.jpeg,請(qǐng)用一個(gè)男孩描述新圖像。

今天有了人工智能代理,你可以做出決定,我需要做的第一件事是確定男孩的姿勢(shì)。然后,找到正確的模型,也許在huggingFace上來提取姿勢(shì)。接下來,你需要找到一個(gè)后期圖像模型來合成一個(gè)女孩的圖片如下所示,然后使用,圖像轉(zhuǎn)文本,最后使用文本轉(zhuǎn)語音。

今天,我們實(shí)際上有一些代理,我不想說他們工作可靠,他們有點(diǎn)挑剔,他們并不總是工作,但當(dāng)它工作時(shí),它實(shí)際上是相當(dāng)驚人的。通過代理循環(huán),有時(shí)您也可以從早期的故障中恢復(fù)。

所以我發(fā)現(xiàn)自己已經(jīng)在我的一些工作中使用研究代理,我想要進(jìn)行一項(xiàng)研究,但我不喜歡,谷歌搜索自己并花很長(zhǎng)時(shí)間。我應(yīng)該發(fā)送給研究人員,幾分鐘后回來看看有什么結(jié)果。而且,有時(shí)有效,有時(shí)無效,對(duì)嗎?但這已經(jīng)是我個(gè)人工作流程的一部分。

4.Multiagent collaboration

最終的設(shè)計(jì)模式,多智能體協(xié)作。

這是有趣的事情之一,但是,它的效果比你想象的要好得多。

左邊是一篇名為“聊天”的論文的截屏,它是完全開放的,實(shí)際上是開源的。你們中的許多人都看到了在我的筆記本電腦上運(yùn)行的Chat Dev開源演示的華麗的社交媒體公告。

GhatDev 所做的就是一個(gè)多代理系統(tǒng)的例子,你提示一個(gè) LLM,有時(shí)扮演一個(gè)軟件引擎公司的CEO,有時(shí)扮演產(chǎn)品經(jīng)理,有時(shí)扮演測(cè)試員。

通過提示讓代理告訴他們,你現(xiàn)在是CEO,你現(xiàn)在是軟件工程師來來建立群代理。他們實(shí)際上會(huì)花幾分鐘編寫代碼?測(cè)試它。迭代。然后生成一個(gè)極其復(fù)雜的程序.

他們合作進(jìn)行了一次長(zhǎng)時(shí)間的對(duì)話,所以如果你告訴它,請(qǐng)開發(fā)一個(gè)游戲,開發(fā)目標(biāo),更多的關(guān)鍵游戲。他們實(shí)際上會(huì)花幾分鐘編寫代碼,測(cè)試它,評(píng)分,然后生成一個(gè)及其復(fù)雜的程序。

有時(shí)它不起作用,有時(shí)它很驚人。但這項(xiàng)技術(shù)真的越來越好。而且,這只是設(shè)計(jì)模式之一,事實(shí)證明,多代理辯論。你有不同的代理,例如,可能讓 ChatGPT 和 Gemini互相辯論,也會(huì)帶來更好的性能。讓多個(gè)代理一起工作,也是更強(qiáng)大的設(shè)計(jì)模式。

所以總結(jié)一下,我認(rèn)為這些模式是顯而易見的。我認(rèn)為如果我們?cè)谖覀兊墓ぷ髦惺褂眠@些模式,我們中的許多人都可以很快得到提升。

我認(rèn)為,代理推理設(shè)計(jì)模式將會(huì)很重要。這是我的最后一張幻燈片。

我預(yù)計(jì),由于代理工作流程!,今年人工智能可以完成的任務(wù)集將大幅拓展。

人們實(shí)際上很難適應(yīng)的一件事是,當(dāng)我們提示LLM時(shí),我們希望立即得到答復(fù)。

事實(shí)上,十年前,當(dāng)我在谷歌與他們討論這個(gè)問題時(shí),我們稱之為大盒子搜索類型,我們需要輸入一個(gè)很長(zhǎng)的提示詞,這是我未能成功推動(dòng)的原因之一,因?yàn)楫?dāng)你進(jìn)行網(wǎng)絡(luò)搜索時(shí),你期望在半秒內(nèi)就會(huì)有一個(gè)回應(yīng),對(duì)吧?這就是人性。

我們喜歡那種即時(shí)抓取,即時(shí)反饋。

但對(duì)于很多代理流程,我認(rèn)為我們需要學(xué)會(huì)將任務(wù)委托給AI代理,并耐心地等待幾分鐘,甚至幾小時(shí)才能得到回應(yīng)。

但就像我看到很多新手經(jīng)理將事情委托給別人,然后5分鐘后檢查一樣,對(duì)吧?

這并不高效。我認(rèn)為這真的很難。

我們也需要用一些AI代理來做到這一點(diǎn)。

另一個(gè)重要的趨勢(shì)是,快速Token生成很重要,因?yàn)橥ㄟ^這些代理工作流程,我們會(huì)一遍又一遍地迭代。

因此,LLM 正在生成Token。因此,能夠比任何人讀取的速度更快地生成Token真是太棒了。

我認(rèn)為,與來自更好的 LLM 的較慢的Token相比,即使是質(zhì)量稍低的 LLM快速生成更多的Token也可能會(huì)產(chǎn)生良好的結(jié)果。

也許,這有點(diǎn)爭(zhēng)議,因?yàn)樗赡軙?huì)讓你多次繞過這個(gè)循環(huán)。有點(diǎn)像我在第一張幻燈片上使用 GPT-3 和代理架構(gòu)展示的結(jié)果。

坦白說,我真的很期待 Claude 5, Claude 4、 GPT-5 和Gemini 2.0以及許多人正在構(gòu)建的所有其他精彩模型。

我的一部分感覺是,如果您期待在 GPT-5 Zero-Shot上運(yùn)行您的東西,您知道,您可能能夠在某些應(yīng)用程序上比您通過代理推理想象的更接近該性能水平,但在早期模型上。我覺得,這是一個(gè)重要的趨勢(shì),老實(shí)說,通向 AGI 的道路感覺像是一段旅程,而不是一個(gè)目的地。

但我認(rèn)為這種類型的代理工作流程可以幫助我們?cè)谶@個(gè)漫長(zhǎng)的旅程中向前邁出一小步。謝謝。

B站視頻觀看地址:

https://www.bilibili.com/video/BV19D421V7mc

附資料:

如何理解:AI agent(人工智能代理)

AI agent(人工智能代理)通常指的是一個(gè)軟件實(shí)體,它可以在某種程度上模擬人類智能的某些方面,執(zhí)行特定任務(wù)或達(dá)成目標(biāo)。這些代理可以感知環(huán)境,并在此基礎(chǔ)上進(jìn)行決策并采取行動(dòng),從而完成既定的任務(wù)或解決問題。

要理解AI代理,我們可以將其比作一個(gè)有能力獨(dú)立執(zhí)行任務(wù)的助手。例如,考慮一下吳恩達(dá)提到的編寫代碼的代理。假設(shè)你是一個(gè)程序員,需要編寫一個(gè)函數(shù)來處理數(shù)據(jù)。

如果沒有AI代理,你需要自己思考、編碼、測(cè)試和調(diào)試。而有了AI代理之后,你可能只需要描述你想要的結(jié)果,AI代理就會(huì)自動(dòng)生成代碼,并且可能還會(huì)對(duì)該代碼進(jìn)行測(cè)試和優(yōu)化。

以多代理系統(tǒng)為例,可以設(shè)想一個(gè)由多個(gè)專門AI代理組成的團(tuán)隊(duì),其中每個(gè)代理都有不同的角色和能力。以下是一些示例:

  1. 軟件開發(fā)多代理系統(tǒng):你可能有一個(gè)AI代理負(fù)責(zé)編寫代碼(編碼代理),另一個(gè)負(fù)責(zé)檢查代碼質(zhì)量(審查代理),還有一個(gè)可能專注于編寫測(cè)試用例(測(cè)試代理)。這些代理可以一起工作,相互溝通,共同開發(fā)出功能完整的軟件應(yīng)用。
  2. 客服機(jī)器人:一個(gè)AI代理負(fù)責(zé)接聽電話,分析客戶的問題,并將其分派給最合適的服務(wù)部門。另一個(gè)AI代理可能是專業(yè)解決特定類型問題的,比如技術(shù)支持或訂單處理。這些代理能夠根據(jù)客戶的需求協(xié)同工作,提供有效的客戶服務(wù)。
  3. 個(gè)人助理AI:一個(gè)AI代理幫助你管理日歷,安排會(huì)議;另一個(gè)代理幫你搜索網(wǎng)絡(luò)信息,而第三個(gè)AI代理可能負(fù)責(zé)運(yùn)行模擬和預(yù)測(cè),幫助你做出更好的商業(yè)決策。

通過使用AI代理,我們可以使復(fù)雜的流程自動(dòng)化,增加效率,并允許系統(tǒng)以自動(dòng)化的方式執(zhí)行那些通常需要大量時(shí)間和專業(yè)知識(shí)的任務(wù)。AI代理的進(jìn)步也意味著它們可以學(xué)習(xí)并改進(jìn)自己的性能,隨著時(shí)間的推移變得更加精確和高效。

專欄作家

Blues,微信公眾號(hào):BLUES,人人都是產(chǎn)品經(jīng)理專欄作家。深圳梅沙科技合伙人。20年豐富的職場(chǎng)經(jīng)歷,歷經(jīng)連續(xù)創(chuàng)業(yè)、騰訊、YY語音、迅雷等公司,目前致力于“教育+科技”產(chǎn)品創(chuàng)造。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!