深度理解Manus AI Agent
Manus AI Agent的出現(xiàn)引發(fā)了AI圈的廣泛關(guān)注,其強(qiáng)大的任務(wù)規(guī)劃和執(zhí)行能力讓許多人驚嘆不已。然而,Manus究竟是什么?它與ChatGPT等其他AI產(chǎn)品有何不同?它的技術(shù)實(shí)現(xiàn)原理是什么?又是否真的如外界所吹捧的那般神奇?本文將從應(yīng)用視角、技術(shù)實(shí)現(xiàn)以及Agent未來發(fā)展趨勢等多個角度,對Manus AI進(jìn)行深度剖析。
不得不說,最近一段時間AI圈的發(fā)展實(shí)在是太快,我們的學(xué)習(xí)速度實(shí)在是有些跟不上,因?yàn)檫@兩天身邊的技術(shù)圈和AI圈的高手們都在討論Manus,讓我覺得自己有必要深入的理解一下Manus的產(chǎn)品和技術(shù)原理,所以今天優(yōu)先快速輸入關(guān)于Manus的分享,后續(xù)會把我過去一個月關(guān)于Deepseek的學(xué)習(xí)成果也分享大家。
為了快速的搞清楚它到底是什么,我花了一天的時間閱讀了大量的文獻(xiàn)并從產(chǎn)品經(jīng)理的視角做一次系統(tǒng)的梳理和總結(jié),相比Deepseek,Manus還是相對更容易理解,加上研究助手的支持,今天很快就把這篇文章輸出出來了,全文近8000+字,我將從應(yīng)用視角、技術(shù)實(shí)現(xiàn)、以及對于Agent探索等角度,深度理解這個產(chǎn)品。
一、從應(yīng)用視角理解Manus AI
1. Manus AI是什么?
簡單一點(diǎn)講,Manus AI本質(zhì)上是一個具備“多智能體”能力的應(yīng)用產(chǎn)品,是一個擁有更多的技能,并且能夠自動規(guī)劃并一次性組合多種技能,解決一個復(fù)雜的應(yīng)用場景問題,相比之前以ChatGPT為主的產(chǎn)品,Manus Ai可以更具體的解決很多通用場景的問題,并且輸出結(jié)果的滿足度更接近用戶想要的結(jié)果,例如根據(jù)其官網(wǎng)的示例,它可以執(zhí)行“爬取特斯拉股票數(shù)據(jù),生成一篇帶圖表的分析報告,并創(chuàng)建一個數(shù)據(jù)面板,將其部署成一個可以查看的網(wǎng)站”等這樣需要完成爬蟲收集數(shù)據(jù)、圖表可視化、創(chuàng)建分析報告、編寫代碼、部署網(wǎng)站等多個復(fù)雜任務(wù)的指令,接下來我們詳細(xì)介紹Manus AI的每一個核心信息:
- ManusAI是一個應(yīng)用,不是大模型:首先它只是個AI應(yīng)用產(chǎn)品,不是一個大模型,跟DeepSeek完全不是一會事,只能算一個做的很不錯的超級產(chǎn)品工程,所以不要和大模型混淆,更不要提“下一個DeepSeek”這種外行的觀點(diǎn),它跟DeepSeek的影響力完全不是一個水平,鑒于當(dāng)下很多人錯誤的觀點(diǎn),這里有必要糾正一下部分人的誤解;
- 具備自動規(guī)劃和任務(wù)拆解的能力:Manus 可以基于用戶輸入的指令,理解用戶的意圖之后,自動建立規(guī)劃,并拆解任務(wù);比如用戶輸入“幫我生成一篇特斯拉的報告“的時候,Manus將該指令拆解為”創(chuàng)建Python文件-爬取數(shù)據(jù)-生成圖表-創(chuàng)作分析報告-編寫HTML代碼-部署網(wǎng)站“這個過程,這里的規(guī)劃能力,和大模型的規(guī)劃能力還稍微有些不同,后面我們會詳細(xì)講解;
- 具備更多的技能,可以完成更多復(fù)雜的任務(wù):以上面的特斯拉的案例為例,完成整個過程所有的任務(wù),需要具備編寫爬蟲代碼、對接金融數(shù)據(jù)API、對接數(shù)據(jù)可視化API、生成分析報告、代碼編程、對接網(wǎng)站部署API等一些類的能力,Manus相當(dāng)于提前具備了這么多技能,當(dāng)需要使用這些技能的時候,自動調(diào)用技能解決問題,”技能庫“是Manus AI非常重要的一個能力,同樣我們后面會詳細(xì)講解;
- 可以解決更多通用性的應(yīng)用場景問題:通過Manus 用戶可以更加大膽的提出更多的應(yīng)用場景問題,比如特斯拉這個例子,以往面對ChatGPT等產(chǎn)品,我們還不能提出讓它自己寫代碼,并且把網(wǎng)站也部署了,可以支持用戶直接打開網(wǎng)頁這種事情,因?yàn)樗恢С种苯硬渴鹁W(wǎng)站的能力,而manus卻做到了,這是它讓大家驚艷和贊嘆的原因之一。
總結(jié)起來,從應(yīng)用層的角度上看,manus是一個技能超群,能更靈活的解決用戶更復(fù)雜的應(yīng)用場景問題的應(yīng)用工具,未來很多需要存在復(fù)雜工作流的任務(wù),通過Manus這種類型的產(chǎn)品,可能能夠得到很好的滿足;
2. Manus AI究竟有沒有那么神?
這兩天有很多營銷媒體有點(diǎn)過分的吹捧Manus,這其實(shí)并不太客觀,很多人甚至都還沒有真實(shí)的體驗(yàn)過這個產(chǎn)品,也還沒搞清楚它就開始吹捧。
但不得不說的是,單純從當(dāng)前AI應(yīng)用的角度上看,Manus定義的應(yīng)用實(shí)現(xiàn)方式和實(shí)現(xiàn)效果確實(shí)是驚艷的,這個評價并不是個人說的,而是來自業(yè)界權(quán)威的GAIA測試的結(jié)果,GAIA它是由數(shù)個來自Meta、HuggingFace和AutoGPT的專家們共同完成,模擬了真實(shí)世界的復(fù)雜問題,要求AI展現(xiàn)推理、多模態(tài)處理、網(wǎng)頁瀏覽和工具使用等多維能力;之前GPT-4+工具調(diào)用在這個測試中僅獲得了15%的成績。而Mannus AI在GAIA測試中超越了之前的各種Agent以及OpenAI的DeepResearch,這非常了不得,但是我們只能說,當(dāng)下它相比其他應(yīng)用還是很了不起的,至于實(shí)際能不能真正一步到位的解決用戶的問題,達(dá)到非常炸裂的效果,這個我覺得不一定,還是要看到實(shí)際的產(chǎn)品,真正放到應(yīng)用場景里面才好評價。
3. Manus AI和ChatGPT等產(chǎn)品的區(qū)別?
Manus AI和ChatGPT都屬于AI應(yīng)用,那么兩者有什么區(qū)別,Manus為啥能夠讓科技圈覺得它與眾不同,個人的理解,兩者的差別主要包括如下:
1.從產(chǎn)品形態(tài)和能力邊界上看,ChatGPT本質(zhì)上是一個以大模型為主的生成式AI應(yīng)用,它目前只能解決一些跟內(nèi)容生成有關(guān)的問題,解決不了跟生成無關(guān)的問題,包括自動化任務(wù),或者跨平臺執(zhí)行任務(wù),比如部署網(wǎng)站、幫你訂餐等,這些跟生成式AI無關(guān);
而Manus AI更像是一個自主規(guī)劃并執(zhí)行任務(wù)的機(jī)器人,生成式AI只是它的一部分能力,除此之外,它還能能自主執(zhí)行自動化任務(wù),或者跨端執(zhí)行任務(wù);而現(xiàn)實(shí)的應(yīng)用場景中,用戶并不是只有AI生成的需求,還有自動化任務(wù)相關(guān)的需求,這是很多用戶認(rèn)可它的原因,相當(dāng)于它能幫用戶解決的問題更多了;
2.從用戶體驗(yàn)的角度上看,ChatGPT在執(zhí)行任務(wù)的時候,更多的需要用戶寫清楚提示詞,提供清晰的指示,在用戶的引導(dǎo)之下才能完成任務(wù);而Manus可以支持用戶簡單的輸入一個指令,Manus自動理解用戶需求并拆解任務(wù),并自動完成任務(wù);
另外一個角度,在解決一些具體任務(wù)問題的時候,ChatGPT很多時候只是提供建議和操作指引,但是并不會幫助你完成任務(wù);比如當(dāng)你問ChatGPT怎么部署網(wǎng)站的時候,它可以很清晰的告訴你一系列過程,但是還是需要用戶自己動手做;而Manus不同,它可以自己動腦規(guī)劃的同時,還直接動手幫你把之情給做了,這完全呼應(yīng)了“Manus”的中文翻譯是“手腦并用”這個點(diǎn);因此ChatGPT更像是一個只指揮不干活的老板,而Manus是一個動腦子還做事情的優(yōu)秀員工,這是用戶更加喜歡Manus這種應(yīng)用形態(tài)的原因;
3.從技能水平上,ChatGPT除了大模型服務(wù)之外,還支持聯(lián)網(wǎng)搜索等技能,但是整體的技能和工具是比較少的,目前更多的是官方引進(jìn)了一些跟生成相關(guān)的技能,但是Manus卻又大量的內(nèi)置技能,包括搜索引擎、瀏覽器、本地文件處理、代碼編程等,還具備調(diào)用多種數(shù)據(jù)API以及跨端操作等技能,所以技能更多;
4.從技術(shù)實(shí)現(xiàn)方式上,ChatGPT主要依托大模型技術(shù),而Manus技術(shù)底座采用了多代理虛擬機(jī)架構(gòu),融合規(guī)劃代理(任務(wù)拆解)、執(zhí)行代理(工具調(diào)用)、驗(yàn)證代理(結(jié)果校驗(yàn))等多層代理,形成一個同時具備“模型調(diào)度+工具鏈整合+環(huán)境交互(例如跨端交互)”三重能力的應(yīng)用。
事實(shí)上,openai推出的產(chǎn)品中,跟Manus直接對標(biāo)的可能不是ChatGPT,而應(yīng)該是其推出的Operator這款產(chǎn)品,但是為啥operator推出的時候,并沒有引起相應(yīng)的轟動,最主要的還是因?yàn)槠湎拗浦挥?00美元/月的PRO用戶才可使用,或許在能力上Operator并不比manus差,但是因?yàn)橹挥袠O少數(shù)用戶才能用上,因此不具備市場效應(yīng)。
4. Manus AI執(zhí)行任務(wù)的過程
在大致的理解了Manus應(yīng)用相關(guān)的問題之后,我們來分析理解一下Manus AI在具體應(yīng)用的過程中,它是怎么運(yùn)作的,我們以其官網(wǎng)示例的:“特斯拉股票分析和投資見解”這個應(yīng)用場景為例,分析它是怎么逐步完成這個應(yīng)用場景的實(shí)現(xiàn)的,整個實(shí)現(xiàn)的效果是,用戶僅輸入一個需求指令,manus最終輸出了一份關(guān)于特斯拉的股票分析,同時將數(shù)據(jù)固定成為一個數(shù)據(jù)看板,并開發(fā)部署為一個可以打開的網(wǎng)站;整個從輸入到輸出的過程的原理,通過一個腦圖梳理概括如下:
具體每個步驟的明細(xì)如下:
1.用戶輸入需求指令,要求對特斯拉股票做一個全面的分析,并提供了需求細(xì)節(jié);
2.連接數(shù)據(jù)源,獲取分析需要的數(shù)據(jù):獲得需求指令后,manus第一件事情是先通過調(diào)用金融數(shù)據(jù)的API獲取特斯拉相關(guān)的企業(yè)信息,財務(wù)數(shù)據(jù)等數(shù)據(jù),這個過程中,Manus調(diào)用了獲取數(shù)據(jù)的API;
3.規(guī)劃和任務(wù)拆解:接著,manus基于用戶的需求,開始制定規(guī)劃并將該需求拆解成多個任務(wù),任務(wù)中包括收集公司概況、財務(wù)分析、分析市場情緒、技術(shù)分析、競爭對手分析、內(nèi)在價值分析、制定投資理論、撰寫報告等多個任務(wù);
4.任務(wù)工作流梳理和執(zhí)行:然后,開始逐步執(zhí)行各個任務(wù),在執(zhí)行該任務(wù)的時候,manus先梳理完成該任務(wù)的工作流,然后依次執(zhí)行,我們以收集財務(wù)數(shù)據(jù)這個任務(wù)為例,整個流程包括撰寫python爬蟲代碼,運(yùn)行爬蟲并獲取財務(wù)數(shù)據(jù),調(diào)用數(shù)據(jù)可視化組件將數(shù)據(jù)整理成可視化圖表;整個過程背后的技術(shù)過程,Manus先是調(diào)用了大模型的能力完成python文件的撰寫,并自動運(yùn)行爬蟲程序爬取數(shù)據(jù),且調(diào)用數(shù)據(jù)可視化圖表的API完成圖表的轉(zhuǎn)換;
5.最終輸出一份分析報告:第一項(xiàng)任務(wù)的終點(diǎn),最后調(diào)用大模型的生成能力輸出的是一個股票分析報告,客觀的講,個人覺得案例中輸出的分析報告肯定還達(dá)不到非常專業(yè)的水平,但是從完成度而言,已經(jīng)是比較不錯了,一方面基本滿足用戶的需求,并且報告中有數(shù)據(jù)、有洞察,只是要說達(dá)到ChatGPT DeepResearch的水準(zhǔn)那沒有。
6.制作儀表板:接下來用戶再次發(fā)送一個制作儀表板的指令,Manus繼續(xù)完成前面從規(guī)劃、任務(wù)拆解、任務(wù)執(zhí)行的過程,完成一個交互式儀表板的創(chuàng)作;
7.將儀表板發(fā)布為網(wǎng)站:最后一步,用戶發(fā)送指令,將該儀表板部署到一個公共的URL上,該過程中Manus完成應(yīng)用程序的編程,并自動將程序部署到公網(wǎng),支持用戶訪問,當(dāng)用戶直接打開這個網(wǎng)頁,看到這個網(wǎng)站的時候,確實(shí)讓人覺得非常爽,只是一個指令,真的最后開發(fā)了一個網(wǎng)頁并且部署為可以直接訪問的應(yīng)用,這點(diǎn)是目前ChatGPT等產(chǎn)品無法做到的;
5. Manus未來更適合能解決哪些應(yīng)用場景的問題?
從前面大家也可以看到,manus的核心能力個人概括起來主要就兩點(diǎn):任務(wù)規(guī)劃和拆解、調(diào)用工具;
因此其應(yīng)用場景,核心圍繞著這兩個能力,比如基于其任務(wù)規(guī)劃和拆解的能力,未來那些工作流比較漫長并且復(fù)雜的應(yīng)用場景,可能可以被很好的解決;
同時基于其調(diào)用工具的能力,未來那些需要跨端、跨系統(tǒng)操作,或者需要組合多動API工具的應(yīng)用場景,可能通過Manus更好的解決,不過鑒于目前Manus可以調(diào)用的工具庫主要以瀏覽器操作、文件操作、編程等為主,API主要以數(shù)據(jù)獲取等為主,未來在應(yīng)用場景上,也將圍繞著其可以調(diào)用的技能范圍來,概括起來個人覺得,以下這些應(yīng)用場景可能在Manus中會被更好的滿足;
6. Manus AI的能力邊界和局限性
概括起來,Manus可能更加適合解決滿足一下條件的應(yīng)用場景的問題,對于任務(wù)流程個性化、缺乏公開工具和API、專業(yè)性較強(qiáng)的應(yīng)用場景,Manus依然無法很好的滿足。
- 任務(wù)和工作流可以被標(biāo)準(zhǔn)化或結(jié)構(gòu)化拆解的應(yīng)用場景:如果任務(wù)拆解非常個性化,流程也很難被標(biāo)準(zhǔn)化,比如創(chuàng)意發(fā)掘、用戶需求洞察等,這些是很難被標(biāo)準(zhǔn)化設(shè)計和規(guī)劃的;
- 該場景存在可以開放的API和工具,如果沒有開放的工具和API可以使用,這種場景就無法被實(shí)現(xiàn)和滿足,比如復(fù)雜的依賴私密信息的金融投研、企業(yè)戰(zhàn)略決策等;另外目前Manus在跨端操作上還只支持瀏覽器的跨端操作,而對于電腦操作系統(tǒng)層級的軟件的跨端操作,由于
- 專業(yè)性較強(qiáng)的場景:從前面的案例中,我們可以看到,即使Manus在自動化執(zhí)行方面已經(jīng)非常出色,但是目前它還是沒有完全解決專業(yè)性的問題,比如它還并不一定知道一個專業(yè)的股票分析報告應(yīng)該是什么樣的,可能還是需要用戶提供一些信息或者需要進(jìn)一步的探索,自動規(guī)劃和工具調(diào)用并不能解決這個問題,如何定義一個好的回答,以及專業(yè)的結(jié)果,其中的know-how依然是壁壘,沒有被打破。
二、從技術(shù)實(shí)現(xiàn)的視角理解Manus AI
1. 從產(chǎn)品實(shí)現(xiàn)的角度看,Manus和以往AI Agent設(shè)計的思路有什么區(qū)別?
作為一個AI應(yīng)用的產(chǎn)品經(jīng)理,在了解完Manus的實(shí)現(xiàn)邏輯和技術(shù)原理之后,我們能明顯的感覺到Manus帶來了另外一種Agent實(shí)現(xiàn)的方式,那么相比之前的AI Agent搭建的方式,manus搭建AI的方式有什么特別之處,這部分主要闡述這個問題。
不管新舊的方式如何,一個Agent的搭建,都必須通過大模型、規(guī)劃、工具(包括知識庫、API、computer use等)這幾部分才能搭建出一個完整的Agent,Manus相比之前的AI Agent搭建的方式,有如下幾點(diǎn)不同:
- 自動的任務(wù)規(guī)劃和拆解:Manus能夠自動的規(guī)劃和拆解任務(wù),不需要人工的接入,而以往我們開發(fā)一個Agent的時候,這部分的規(guī)劃和拆解是產(chǎn)品經(jīng)理人工拆解的,由人工來定義;
- 從工具庫從調(diào)用工具:Manus具備一個內(nèi)置的工具庫,該工具庫中包括瀏覽器、文件處理、代碼編輯器等工具,并且支持調(diào)用多種API完成特定任務(wù),還可通過computer use的方式跨端操作,因此它具備了更出色的工具調(diào)用能力,而以往AI Agent開發(fā)的時候,每一個環(huán)節(jié)里面的工具能力都需要對接具體的API或者使用具體的工具,工具接入的過程更加繁瑣;
- 通用性:因?yàn)榧寄芟拗?,以前的Agent的實(shí)現(xiàn),每個agent只能解決特定的場景,很難解決通用場景的應(yīng)用,而Manus在超多技能支持的情況下,可以成為一個通用的AI Agent,靈活的解決很多問題。
2. Manus AI背后的技術(shù)架構(gòu)和原理
在前面特斯拉的案例中,我們也能夠看到,Manus在具體解決某一個問題的時候,是先規(guī)劃和拆解任務(wù),然后再分別執(zhí)行各個子任務(wù)的工作,最后輸出結(jié)果;
仔細(xì)理解,Manus AI 的底層使用了多代理虛擬機(jī)的架構(gòu),架構(gòu)中包括規(guī)劃代理、執(zhí)行代理、驗(yàn)證代理三層代理,每個代理都具備動態(tài)調(diào)用工具庫和API的能力,三個代理協(xié)同起來,完成任務(wù)的處理,整個工作流程概括起來如下:
1.用戶輸入具體指令需求;
2.規(guī)劃代理完成任務(wù)規(guī)劃和拆解;
3.通過執(zhí)行代理完成具體指定任務(wù)的執(zhí)行;
4.通過驗(yàn)證代理驗(yàn)證操作結(jié)果并輸出結(jié)果;
3. Manus的規(guī)劃任務(wù)拆解和大模型的規(guī)劃能力有什么區(qū)別?
Mannus的核心能力之一是自主規(guī)劃和任務(wù)拆解,大家可能會覺得奇怪,大模型明明也具備規(guī)劃和拆解的能力,為啥不直接使用大模型,Manus為啥還要采用多代理虛擬機(jī)這樣一個特殊的架構(gòu)來實(shí)現(xiàn)這個事情其中。
其中最主要的原因在于大模型的規(guī)劃能力和任務(wù)拆解往往只是基于“文本生成邏輯”,規(guī)劃結(jié)果也只是停留在文本層面,而非基于實(shí)際可行的操作,比如當(dāng)用戶要求“生成特斯拉股票分析報告”時,大模型可能輸出步驟建議(如“先獲取數(shù)據(jù),再分析趨勢”),但缺乏具體工具調(diào)用路徑,如調(diào)用雅虎金融API、Python腳本編寫、Matplotlib可視化等,因此規(guī)劃不到具體可落地的層面;
另外對于一些復(fù)雜的任務(wù),通常需根據(jù)中間結(jié)果動態(tài)調(diào)整策略,Manus的規(guī)劃代理需要能實(shí)時監(jiān)控執(zhí)行代理的進(jìn)度,并根據(jù)異常(如API調(diào)用失?。┲匦乱?guī)劃子任務(wù),而單一模型難以實(shí)現(xiàn)這種閉環(huán)反饋,這就是大模型規(guī)劃能力和Manus背后的規(guī)劃能力的區(qū)別。
4. Manus是如何解決工具的獲取和調(diào)用的問題?
前面我們已經(jīng)知道了Manus具備自動調(diào)用工具和API的能力,其中這些工具可能來自如下3個來源:
1.內(nèi)置工具庫:包括瀏覽器、文件處理器、代碼編輯器、圖表生成工具等等,這些可能都是一些公開的工具組件,官方整合后放到工具庫,并基于Claude在2024年6月20日發(fā)布的Artifacts,讓Manus能夠在對話中動態(tài)創(chuàng)建和修改這些工具,從而完成從代碼到圖表,從文檔到交互式組件等直觀內(nèi)容的呈現(xiàn);
2.API:其中包括數(shù)據(jù)獲取的API以及具體某一個技術(shù)能力的API,過往我們搭建Agent的時候,我們是通過function call技術(shù)將API轉(zhuǎn)換成模型可以調(diào)用的工具或者函數(shù),每次在一個Agent 里面調(diào)用API的時候都需要單獨(dú)做對接,這樣的方式,就意味著如果要支持100種API,就要對接100次,這樣就不具備可持續(xù)發(fā)展的條件,Manus之所以能更輕松的解決這個問題,得益于2024年11月25日Anthropic開源了劃時代的“模型上下文協(xié)議”(MCP),MCP解決了數(shù)據(jù)獲取和功能獲取等API的統(tǒng)一接入問題,一方面,市面上只要是支持了MCP協(xié)議的API,開發(fā)者都可以直接調(diào)用,有些指定的API如果還不支持,開發(fā)者可以通過自主的開發(fā),讓指定的API支持MCP協(xié)議,這樣,Manus可以構(gòu)建一個API工具庫,這些工具可以被直接調(diào)用,不用再進(jìn)行單獨(dú)開發(fā);
3.Computer use能力:另外,即使沒有API和工具,通過Computer use的能力,AI應(yīng)用可以不局限于專用工具,而是能像人類一樣“看見”屏幕并操作計算機(jī),移動光標(biāo)、點(diǎn)擊按鈕、輸入文本,真正模擬人類與計算機(jī)的自然互動,該能力由Claude在2024年10月22日發(fā)布,Manus利用該能力,通過跨端操作等方式,增添了更多的能力;
從這里可以看到,其實(shí)Manus并沒有創(chuàng)造太多的技術(shù)方案,只是將這些大公司公開的技術(shù)方案利用到極致,用于形成自己的AI應(yīng)用,他可能算不上是AI技術(shù)的引領(lǐng)者和貢獻(xiàn)者,但是至少一定是利用開源技術(shù)做產(chǎn)品工程最極致的企業(yè)。
5. Manus調(diào)用工具的方式:云端異步執(zhí)行與沙盒環(huán)境
1.云端計算環(huán)境:Manus的所有工具調(diào)用均在獨(dú)立云端沙盒中完成,用戶無需本地安裝軟件或配置環(huán)境。例如,生成HTML演示文稿或運(yùn)行Python腳本時,直接在云端虛擬機(jī)執(zhí)行,用戶可隨時關(guān)閉設(shè)備等待結(jié)果。
2.異步處理能力:支持用戶上傳任務(wù)后離線,系統(tǒng)自動分階段調(diào)用工具并執(zhí)行,完成后通過通知推送結(jié)果。例如,用戶可提交旅行規(guī)劃需求,Manus在后臺調(diào)用地圖API、酒店預(yù)訂接口及預(yù)算計算工具,最終生成完整行程表。
3.安全性保障:調(diào)用API時優(yōu)先使用權(quán)威數(shù)據(jù)源,避免非結(jié)構(gòu)化數(shù)據(jù)的干擾;同時通過沙盒隔離確保用戶隱私與任務(wù)安全。
三、透過Manus AI看Agent未來的發(fā)展趨勢
1. Manus的產(chǎn)品形態(tài),是否代表未來Agent的趨勢?
個人的觀點(diǎn),Manus AI的這種產(chǎn)品形態(tài),并不一定代表未來Agent的發(fā)展趨勢,應(yīng)用的本質(zhì)是解決用戶的應(yīng)用場景問題,至于產(chǎn)品形態(tài)個人認(rèn)為不重要。
ChatGPT等這些類型的AI應(yīng)用,也并不是不能實(shí)現(xiàn)Manus AI的功能,前面我們理解到,Manus相比ChatGPT等應(yīng)用主要是多了任務(wù)規(guī)劃和拆解、工具調(diào)用(工具庫、API、computer use)的能力,如果ChatGPT也同步支持這些能力,其照樣也可以實(shí)現(xiàn)manus一樣的效果,其中核心的多代理虛擬機(jī)架構(gòu)、工具庫、基于MCP協(xié)議的API、computer use等都并不適合Manus的公司原創(chuàng),其他應(yīng)用復(fù)現(xiàn)和支持的代價并不高,也就是說ChatGPT等類型的應(yīng)用也能以其產(chǎn)品形態(tài)實(shí)現(xiàn)相同的應(yīng)用效果。
2. Manus是否具備競爭壁壘,和扣子等Agent開發(fā)平臺的區(qū)別
鑒于Manus的很多產(chǎn)品能力其實(shí)都是基于開源框架和技術(shù)造就的復(fù)雜產(chǎn)品工程,所以個人認(rèn)為,并沒有太大的核心競爭壁壘,優(yōu)勢僅僅是因?yàn)槁氏韧瞥?,可以搶先獲取用戶,而像扣子、騰訊元器等類型的Agent搭建工具,也完全有條件可以實(shí)現(xiàn)和Manus同樣的能力,比如扣子只需要增加任務(wù)拆解和規(guī)劃的能力,以及快速接入支持MCP協(xié)議的API,改變其當(dāng)下通過Function call的方式對接API的方式,可能達(dá)到類似的效果,并且多智能體這種實(shí)現(xiàn)方式,在很早的時候,已經(jīng)被應(yīng)用于扣子的agent搭建流程中,只是目前多智能體需要人工取連接,不是通過模型自動串聯(lián),但是這個事情要實(shí)現(xiàn)不是很難的事情,對于字節(jié)來說。
結(jié)尾
OK,以上即為三白對Manus AI Agent建立的快速理解,從一開始不明所以,完全不知道這個東西到底是什么,到逐漸理解其實(shí)現(xiàn)方式,并對比之前的Agent產(chǎn)品,慢慢的理解這個產(chǎn)品,無論其產(chǎn)品能力如何,Manus的這種實(shí)現(xiàn),也算的上是應(yīng)用層的創(chuàng)新,他的實(shí)現(xiàn)方式,給AI應(yīng)用的創(chuàng)業(yè)者們提供了一種做應(yīng)用產(chǎn)品的思路,或許應(yīng)用中的很過規(guī)劃細(xì)節(jié)可以交給模型和規(guī)劃代理處理,MCP之下的API接入的方式,或許可以改變目前AI應(yīng)用接入API繁瑣且困難的局面。
作者:三白有話說,公眾號:三白有話說
本文由 @三白有話說 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!