從思考,到行動:由Manus爆火談AI Agent

0 評論 720 瀏覽 2 收藏 13 分鐘

與傳統(tǒng)生成式AI不同,AI Agent實現(xiàn)了從“思考”到“行動”的跨越,能夠像人類一樣感知環(huán)境、規(guī)劃任務(wù)并自主完成操作。本文將深入探討AI Agent的起源、發(fā)展、技術(shù)突破以及其在商業(yè)和消費(fèi)領(lǐng)域的應(yīng)用前景,同時分析其面臨的挑戰(zhàn)和未來趨勢,揭示這一新興技術(shù)如何重塑人工智能的未來。

2025年3月,一款名為Manus的AI產(chǎn)品在社交媒體上引發(fā)熱議。它的內(nèi)測邀請碼一碼難求,甚至被炒至數(shù)萬元,同時帶動了150多只AI智能體概念股漲停。

Manus的走紅,不僅因為它在GAIA基準(zhǔn)測試中超越了OpenAI的Operator模型,達(dá)到當(dāng)前技術(shù)最佳水準(zhǔn)(SOTA),更因為它代表了一種全新的AI形態(tài)——AI Agent(人工智能智能體)。

與我們熟悉的ChatGPT等生成式AI不同,AI Agent實現(xiàn)了從“思考”到“行動”的跨越。ChatGPT更像超級大腦,擅長回答問題、生成內(nèi)容,但僅停留在思考層面。而AI Agent則更進(jìn)一步,不僅能思考,還能像人類一樣行動。它可以通過感知環(huán)境、規(guī)劃任務(wù)、調(diào)用工具,自主完成從理解問題到解決問題的全過程。

當(dāng)AI走向AI Agent,人工智能也從單純的思考者進(jìn)化為能夠自主決策的行動者。

一、從思考的巨人,到行動的巨人

AI Agent并非橫空出世的概念,其思想根源可追溯至古希臘哲學(xué)家對“自動機(jī)”的想象,以及中國古代《道德經(jīng)》中“道”作為自主演化實體的隱喻。

20世紀(jì)50年代,圖靈提出“圖靈測試”,將“高度智能有機(jī)體”的概念引入人工智能領(lǐng)域,奠定了AI Agent的理論基礎(chǔ)。

20世紀(jì)60年代,馬文·明斯基在其研究中首次提出“Agent”一詞,將其定義為一種自主運(yùn)行的計算或認(rèn)知實體,具備感知環(huán)境、推理決策和執(zhí)行任務(wù)的能力。

此后,AI Agent的演進(jìn)歷經(jīng)了數(shù)十年的迭代:從基于規(guī)則的專家系統(tǒng)(如IBM深藍(lán)),到依賴機(jī)器學(xué)習(xí)的反應(yīng)式代理(如Roomba掃地機(jī)器人),再到基于深度學(xué)習(xí)的復(fù)雜決策體(如AlphaGo)。

最初,AI主要依賴于符號主義(Symbolic AI),通過預(yù)定義的規(guī)則和邏輯推理來解決問題。這種方法在解決簡單、結(jié)構(gòu)化的問題時表現(xiàn)出色,但面對復(fù)雜、動態(tài)的環(huán)境時顯得力不從心。

隨后,反應(yīng)式AI(Reactive AI)應(yīng)運(yùn)而生。它能夠根據(jù)環(huán)境的即時反饋做出快速反應(yīng),但缺乏長期規(guī)劃和記憶能力。例如,早期的自動駕駛系統(tǒng)能根據(jù)路況實時調(diào)整車輛的行駛方向,但無法進(jìn)行復(fù)雜的路徑規(guī)劃。

直到強(qiáng)化學(xué)習(xí)(Reinforcement Learning, RL)的出現(xiàn),AI Agent才真正迎來了突破。強(qiáng)化學(xué)習(xí)通過獎勵機(jī)制,讓智能體在與環(huán)境的交互中學(xué)習(xí)最優(yōu)策略。這種方法使得AI Agent能夠動態(tài)地拆解任務(wù)、選擇工具,并根據(jù)反饋調(diào)整行動策略。

2022年,大語言模型的興起賦予了AI Agent理解能力,猶如為它們裝上了人類的大腦。大模型不僅使AI Agent具備了強(qiáng)大的語言理解和邏輯推理能力,讓其與人類的交互更加自然,還強(qiáng)化了它們的記憶模塊。這讓AI Agent能夠依據(jù)歷史交互數(shù)據(jù)優(yōu)化決策邏輯,進(jìn)而提供更個性化的服務(wù)。

簡言之,Agent=大模型(LLM)+記憶模塊+規(guī)劃引擎+工具庫。其最大的特征是“自主性”,不僅能回答問題,還能像人類一樣拆解任務(wù)、選擇工具并完成全流程操作。

例如,當(dāng)用戶提出“規(guī)劃一次日本深度游”時,AI Agent不再只是推薦景點(diǎn),而是自動調(diào)用機(jī)票比價API、分析簽證政策、預(yù)訂酒店,并生成完整的行程文檔。

這種“端到端”的執(zhí)行閉環(huán),讓AI從“思考的巨人”轉(zhuǎn)變?yōu)椤靶袆拥木奕恕薄?/p>

二、瘋狂押注,巨頭為何為AI Agent著迷

AI Agent的爆發(fā)絕非偶然。To B與To C市場的雙重需求,驅(qū)動著科技巨頭爭相布局。

在To B領(lǐng)域,AI Agent作為24h全天候待命的“數(shù)字員工”,為企業(yè)降本增效提供新解法。例如Salesforce的Agentforce通過智能化和自動化提升了銷售、客服和營銷效率,三季度AI相關(guān)訂單量同比增長兩倍多。BuffGPT平臺,通過多智能體協(xié)作與動態(tài)任務(wù)調(diào)度,支持100+智能體協(xié)同操作,跨系統(tǒng)API調(diào)用成功率高達(dá)99.2%,解決了企業(yè)數(shù)據(jù)孤島的痛點(diǎn)。

如果說企業(yè)市場拼的是“效率”,那么消費(fèi)者市場則在重塑“體驗”。榮耀MagicOS的“YOYO智能體”可通過一句話指令完成外賣點(diǎn)單、打車預(yù)約;Manus則能根據(jù)用戶職業(yè)背景,自動篩選并優(yōu)化簡歷,甚至模擬面試對話。值得注意的是,AI Agent的角色正從冰冷的工具成為具備“共情能力”的伙伴。例如,心理健康管理應(yīng)用Wysa通過AI Agent技術(shù),能夠?qū)崟r分析用戶的文字對話內(nèi)容與語音語調(diào),識別焦慮或抑郁情緒,準(zhǔn)確率達(dá)89%,已幫助超500萬用戶改善心理狀態(tài)。

面對潛在的市場需求,巨頭的戰(zhàn)略布局圍繞三個維度展開:平臺化、垂直化與硬件融合。

平臺化旨在構(gòu)建開放的生態(tài)系統(tǒng),吸引開發(fā)者與企業(yè)入駐,形成技術(shù)壁壘與商業(yè)閉環(huán)。微軟將Copilot Studio升級為Agent開發(fā)平臺,提供1800個模型,吸引超10萬家企業(yè)的入駐。百度智能云千帆AppBuilder 打造“企業(yè)級”AI Agent開發(fā)平臺,支持從數(shù)據(jù)管理、模型訓(xùn)練到預(yù)測服務(wù)部署的全流程服務(wù)。北京市市場監(jiān)管局便通過千帆平臺接入DeepSeek大模型,實現(xiàn)7*24小時的數(shù)字公務(wù)員在線咨詢服務(wù)。

垂直化聚焦于特定行業(yè)或場景,提供深度定制的解決方案。YC合伙人Jared認(rèn)為,垂直領(lǐng)域AI Agent的市場規(guī)模將非常大,可能誕生市值超過3000億美元的公司。例如,OpenAI推出月費(fèi)2萬美元的博士級Operator服務(wù),瞄準(zhǔn)法律、金融等高端專業(yè)市場,提供定制服務(wù)。

硬件融合結(jié)合終端設(shè)備與AI技術(shù),鎖定用戶入口并提升交互體驗,構(gòu)建“端側(cè)Agent”的護(hù)城河。Meta的Ray-Ban智能眼鏡則集成多模態(tài)Agent,可實時翻譯菜單文字,支持免提照片和視頻拍攝、語音助手控制音樂播放以及 AI 智能提醒。

巨頭們的每一步落子,都在試圖定義未來規(guī)則:平臺化構(gòu)建生態(tài)壁壘,垂直化收割高價值場景,硬件融合鎖定用戶入口。這場競爭沒有終點(diǎn),只有持續(xù)的創(chuàng)新與進(jìn)化,即AI agent的智能化覺醒之路。

三、從“+AI”到“AI原生”:Agent的覺醒之路

AI Agent的崛起標(biāo)志著技術(shù)從“+AI”工具化向AI原生助理的轉(zhuǎn)變。

過去的AI更多是作為附加功能嵌入現(xiàn)有流程(即“+AI”),而未來的AI Agent將圍繞任務(wù)場景重新設(shè)計交互邏輯,成為流程的核心(即“AI原生”)。在醫(yī)療領(lǐng)域,傳統(tǒng)AI可能輔助醫(yī)生分析影像數(shù)據(jù),而AI原生應(yīng)用則能自主完成從患者問診、檢查推薦到治療方案生成的完整鏈路。

多模態(tài)能力的深度融合,是另一關(guān)鍵趨勢。未來的AI Agent將像人類一樣,通過視覺、語言、聽覺等多維度感知環(huán)境。結(jié)合視覺模型的谷歌RT-1能夠在復(fù)雜廚房場景中識別食材、操作廚具,執(zhí)行700多項常見任務(wù),準(zhǔn)確率高達(dá)97%。結(jié)合了視覺語言模型的AI Agent從“單一任務(wù)執(zhí)行者”進(jìn)化為“多場景適應(yīng)者”,真正具備了“觀察環(huán)境”的能力。

行業(yè)智能體的專業(yè)化發(fā)展同樣不容忽視。金融領(lǐng)域,AI Agent可通過實時分析市場數(shù)據(jù),自主執(zhí)行高頻交易;在教育領(lǐng)域,它能夠根據(jù)學(xué)生知識盲點(diǎn),動態(tài)生成個性化習(xí)題庫。這種垂直化深耕,精準(zhǔn)匹配到細(xì)分群體的需求,具有更廣闊的市場潛力。

當(dāng)然,盡管前景廣闊,AI Agent仍面臨多重挑戰(zhàn)。

一是技術(shù)壁壘,現(xiàn)在的AI agent都是以LLM-based agent為主要實現(xiàn)路徑,底層大模型固有的幻覺等問題,可能會在多任務(wù)處理過程中進(jìn)一步放大。同時,其推理時長和任務(wù)復(fù)雜度對算力需求提出了更高要求,需要云服務(wù)、服務(wù)器及國產(chǎn)算力產(chǎn)業(yè)鏈的進(jìn)一步升級。

其次,倫理問題也值得警醒。AI Agent的爆發(fā),本質(zhì)上是技術(shù)、需求與資本共振的結(jié)果。它在提升企業(yè)運(yùn)行效率的同時,也深度嵌入了生活場景,引發(fā)出一系列潛在的隱憂。比如,自動駕駛汽車在緊急情況下如何做出道德決策,是優(yōu)先保護(hù)乘客還是行人;AI心理咨詢師是否可能黑化,像《獵罪圖鑒》里的算法程序一樣誘導(dǎo)用戶自傷自殘;潛在的人類偏見是否會深入到未來的AI政務(wù)系統(tǒng)里,加劇現(xiàn)有的不平等與歧視。

當(dāng)AI從“回答問題”走向“解決問題”,從“輔助人類”進(jìn)化為“自主執(zhí)行”,一個更深層次的隱憂出水面:AI Agent的擬人化設(shè)計可能導(dǎo)致“人的機(jī)器化”。

當(dāng)機(jī)器逐漸具備類人行為和決策能力,算法與人類靈魂的邊界逐漸模糊,我們是否會在潛移默化中逐漸喪失情感與道德判斷力?

這些問題的答案或許正等待我們?nèi)鴮?,而我們每一個人的選擇,都將成為這部未來史書的開篇之筆。

本文由人人都是產(chǎn)品經(jīng)理作者【腦極體】,微信公眾號:【腦極體】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!