從WAIC2024看人工智能三大趨勢:智能體、具身智能、算力風(fēng)暴

0 評論 1901 瀏覽 8 收藏 19 分鐘

隨著2024年世界人工智能大會(WAIC2024)的召開,我們得以窺見人工智能領(lǐng)域的三大趨勢:AI智能體的興起、人形機(jī)器人商用的臨近,以及國產(chǎn)算力的突破。這些趨勢不僅標(biāo)志著技術(shù)進(jìn)步的新里程碑,也預(yù)示著人工智能將如何深刻地影響我們的未來。

短短10天內(nèi),上海連續(xù)舉辦兩個全球性重要展會——世界移動通信大會(MWCS2024)和世界人工智能大會(WAIC2024),無論瓢潑大雨還是烈日當(dāng)空,AI都在魔都掀起一陣科技“颶風(fēng)”。

馮·諾伊曼說:“技術(shù)的不斷加速進(jìn)步,將會引發(fā)人類歷史上某個關(guān)鍵的奇點(diǎn)。”從2018年首屆世界人工智能大會拂曉初現(xiàn)的“人工智能新紀(jì)元”曙光,到如今第七屆WAIC的召開,我們已然佇立在奇點(diǎn)的門檻之上,比以往任何時候都更貼近那個改寫歷史的瞬間。

透過WAIC2024的透鏡,我們清晰看到AI的三大趨勢。

趨勢一:“百模大戰(zhàn)”第二幕,大模型應(yīng)用元年開卷AI Agent

與一年前的WAIC相比,今年的“百模大戰(zhàn)”名副其實(shí),中國電信的“星辰”、阿里的“通義”、百度的“文心”、騰訊的“混元”、商湯科技的“日日新”、云知聲的“山海”、人工智能實(shí)驗室的“書生”……幾乎每個展臺都有自己的“大模型”。

在“卷”了一年參數(shù)量級、可支持上下文token數(shù)、推理價格等等之后,AI Agent(AI助理/AI智能體)拉開了“百模大戰(zhàn)”的第二幕。

今年入選WAIC鎮(zhèn)館之寶的支付寶智能助理,便是一款基于螞蟻集團(tuán)百靈大模型研發(fā)的AI Agent,用戶在支付寶首頁下拉就能喚起“小助理”,問一問就能獲得出行、健康、政務(wù)、金融等領(lǐng)域超8000項數(shù)字生活服務(wù)。

“同門師兄”阿里云的“通義for everyone”則集成通義大模型全棧能力,以通義千問最新基礎(chǔ)模型為基座,整合通義實(shí)驗室前沿的文生圖、智能編碼、文檔解析、音視頻理解、視覺生成等能力,最終形成一個All in one的全能AI助手。

在“騰訊元器”展區(qū),參會嘉賓可以通過添加提示詞、插件、知識庫等自由創(chuàng)建智能體(AI Agent),也可以在智能體商店選擇、使用智能體,以滿足不同場景下的需求。

除了這些針對個人用戶的“AI 助手”,作為大模型從通用走向垂直應(yīng)用的重要“抓手”,AI Agent也出現(xiàn)在各類行業(yè)大模型中。

“為B端客戶打造一個AI Agent的過程,更像是一個打通企業(yè)流程、全面治理數(shù)據(jù)、重塑業(yè)務(wù)架構(gòu)的契機(jī)?!敝袊娦糯竽P褪紫瘜<覄⒕粗t告訴《IT時報》記者,只有深入理解行業(yè)特性和場景需求,才能打造出真正實(shí)用的AI Agent,實(shí)現(xiàn)技術(shù)的有效落地。

與微軟在Windows 11中創(chuàng)建的Copilot(助手)不同,AI Agent更強(qiáng)調(diào)服務(wù)的協(xié)同性以及對自然語言的認(rèn)知程度。

OpenAI對AI Agent的定義是以大語言模型(LLM)為大腦驅(qū)動,具有自主理解、感知、規(guī)劃、記憶和使用工具的能力,能自動化執(zhí)行復(fù)雜任務(wù)的智能體。它具有獨(dú)立思考和行動能力,不僅能夠處理信息,還能根據(jù)環(huán)境變化自主學(xué)習(xí)和適應(yīng),以實(shí)現(xiàn)特定的目標(biāo)或解決特定的問題。

不久前蘋果剛剛發(fā)布的“Apple Intelligence”,便是一個整合操作系統(tǒng)、軟件、模型和數(shù)據(jù),強(qiáng)化對應(yīng)用場景的理解,深刻洞察用戶需求的AI Agent。

第一個為AI Agent歡呼的大佬是比爾·蓋茨。早在1995年出版的《未來之路》一書中,他便描述過這種可以理解用戶自然語言并根據(jù)對用戶的了解完成多種任務(wù)的Agent,但直到ChatGPT橫空出世,才讓他看到了真正可實(shí)用AI Agent出現(xiàn)的可能。

在比爾·蓋茨看來,AI Agent將徹底顛覆人與機(jī)器的交互方式??深A(yù)見的未來是:智能手機(jī)上都會有一個AI Agent,它將集合手機(jī)中所有數(shù)據(jù),滿足用戶隨時隨地的需求;它將是企業(yè)的“AI程序員”,協(xié)助開發(fā)人員完成從編碼、測試、升級應(yīng)用到故障排查、安全掃描和修復(fù)、優(yōu)化云資源等繁瑣重復(fù)的工作;或者是公司的“數(shù)據(jù)分析員”,自動匯集分析企業(yè)所有數(shù)據(jù),挖掘數(shù)據(jù)金礦價值,員工則只要用自然語言與AI Agent對話,便可以獲得相關(guān)業(yè)務(wù)數(shù)據(jù)和答案,例如公司政策、產(chǎn)品信息、業(yè)務(wù)結(jié)果、代碼庫、人員等。

螞蟻集團(tuán)董事長兼CEO井賢棟也在本屆人工智能大會上表示,如同移動互聯(lián)網(wǎng)時代App是典型應(yīng)用一樣,在人工智能時代,智能體將成為新的應(yīng)用范式,為用戶帶來服務(wù)代際的升級,而專業(yè)智能體是大模型落地產(chǎn)業(yè)的有效路徑。醫(yī)療、教育、金融、制造、交通、農(nóng)業(yè)等各行業(yè)領(lǐng)域,未來都有可能依據(jù)自己的場景和特有經(jīng)驗、規(guī)則、數(shù)據(jù)等等,生成數(shù)以百萬量級的智能體,形成龐大生態(tài)。

然而,并不是所有的AI Agent都天然擁有強(qiáng)大的能力。AIGC時代,每個企業(yè)都不想錯過紅利,但每個企業(yè)也都在問:AIGC究竟能給自己帶來什么?讓生成式人工智能應(yīng)用和助手真正發(fā)揮作用,它們必須了解組織的數(shù)據(jù)、客戶、運(yùn)營和業(yè)務(wù),但如今的許多助手都無法輕松個性化,而且它們的設(shè)計也無法滿足公司所需的數(shù)據(jù)隱私和安全要求。

事實(shí)上,AI Agent高度依賴基座大模型的能力、貫通整個企業(yè)體系架構(gòu)的工程能力、研發(fā)者對行業(yè)的理解以及高質(zhì)量的數(shù)據(jù)支撐,以上任何一個條件缺失,都有可能使AI Agent只是看起來很美好,實(shí)際使用中卻因為不夠“專業(yè)”,導(dǎo)致應(yīng)用無法落地。

“應(yīng)用是未來大模型決戰(zhàn)的主要戰(zhàn)場,”在騰訊云副總裁、騰訊優(yōu)圖實(shí)驗室負(fù)責(zé)人吳運(yùn)聲看來,目前幾乎所有大模型廠商都在智能體領(lǐng)域做進(jìn)一步技術(shù)嘗試,模型以落地、實(shí)用為先,大模型的研發(fā)應(yīng)用必須關(guān)注和解決具體業(yè)務(wù)場景,關(guān)注可用性和性價比。

趨勢二:具身智能扎堆繁榮,人形機(jī)器人進(jìn)入商用前期

今年WAIC的鎮(zhèn)館之寶做了一道“大菜”——“十八金剛 人形機(jī)器人先鋒陣列”,網(wǎng)羅了中電科、復(fù)旦大學(xué)、達(dá)闥、傅利葉、鈦虎、星動紀(jì)元、卓益得、開普勒、宇樹等18個國內(nèi)領(lǐng)先的機(jī)器人產(chǎn)品,著實(shí)讓觀眾體驗了一回什么叫“具身智能元年”。來自主辦方的數(shù)據(jù)顯示,本屆大會合計展出的人形機(jī)器人超過25款。

1950年,“計算機(jī)之父”圖靈(Alan Turing)在他的論文中首次提出“具身智能”概念。嚴(yán)格意義上,機(jī)器人、工業(yè)機(jī)器人、擬態(tài)機(jī)器狗、智能網(wǎng)聯(lián)車,都是“身”,但人形依然是人類接受度最高的機(jī)器人形態(tài)。

從硬件條件上看,不少人形機(jī)器人已經(jīng)具備相當(dāng)高的肢體靈敏度。比如,人形機(jī)器人(上海)有限公司自主研發(fā)人形機(jī)器人“青龍”,身高185cm、體重80kg、全身多達(dá)43個主動自由度,手指可以輕拿輕放杯子,即便是柔軟的面包,也能在抓起時保證面包外形的完整性。

上海開普勒探索機(jī)器人有限公司的通用人形機(jī)器人,身高175cm,體重70kg,全身具備40個關(guān)節(jié)自由度、80多個傳感器,具備復(fù)雜地形行走、智能規(guī)避障礙等多種功能。

國家地方共建人形機(jī)器人創(chuàng)新中心總經(jīng)理許彬一直有一種略帶激進(jìn)的看法:具身智能是通往通用人工智能的必由之路,而且只有人形機(jī)器人才能實(shí)現(xiàn)通用人工智能,核心邏輯是人類社會存在的所有數(shù)據(jù),都是為了讓人類更好地生存和發(fā)展,所有對世界的理解、認(rèn)知和情感的數(shù)據(jù),都是基于人體產(chǎn)生,而貓或魚等其它生物本體,不可能感知到人類世界的各個方面。

至少在現(xiàn)階段,具身智能尚不完全具備對物理世界的認(rèn)知和交互能力,尤其是目前類GPT模式的大模型,在用于具身智能時,效果并不理想。

一家國產(chǎn)人形機(jī)器人創(chuàng)始人透露,之前曾將GPT-4V的圖像接口接入機(jī)器人,但大模型對物體的空間認(rèn)知能力非常差,而且“記憶力”只有一秒。全球人工智能頂級科學(xué)家李飛飛也認(rèn)為,大模型不具備知覺,參數(shù)再多也不行。

“我們需要構(gòu)建一種‘知識+數(shù)據(jù)’驅(qū)動的智能模型,”中國工程院院士、同濟(jì)大學(xué)校長鄭慶華創(chuàng)新性地提出“知識森林”理論,將大模型中的碎片化知識與人類已有的知識鏈融合,從而生成具有可解釋推理的問題求解機(jī)制。

上海人工智能實(shí)驗室主任、首席科學(xué)家周伯文也認(rèn)為,具身智能絕不僅僅是大模型加機(jī)器人的應(yīng)用,而是大模型接收物理世界的反饋從而進(jìn)化,“光靠看書或看視頻,永遠(yuǎn)學(xué)不會游泳,你得親身扎到水里才能學(xué)會。大模型得通過機(jī)器人,扎進(jìn)現(xiàn)實(shí)世界,才能真正理解物理世界?!?/p>

世界模型是當(dāng)前具身智能領(lǐng)域最熱門的詞語。人工智能實(shí)驗室構(gòu)建了“軟硬虛實(shí)”一體的機(jī)器人訓(xùn)練場——浦源·桃源,同時攻關(guān)具身智能的“大腦”與“小腦”?!捌衷础ぬ以础笔鞘讉€城市級具身智能數(shù)字訓(xùn)練場,構(gòu)建了集場景數(shù)據(jù)、工具鏈、具身模型評測三位一體的開源具身智能研究平臺。作為大模型與機(jī)器人的連接層,涵蓋89種功能性場景、超10萬高質(zhì)量可交互數(shù)據(jù),有望解決領(lǐng)域內(nèi)數(shù)據(jù)匱乏、評測困難的問題。  

在大腦方面,人工智能實(shí)驗室通過具身智能體自身狀態(tài)認(rèn)知、復(fù)雜任務(wù)分解分配、底層技能協(xié)同控制三方面創(chuàng)新,實(shí)現(xiàn)了大模型驅(qū)動的無人機(jī)、機(jī)械臂、機(jī)器狗三種異構(gòu)智能體協(xié)同。在小腦方面,通過GPU高性能并行仿真和強(qiáng)化學(xué)習(xí),可以高效實(shí)現(xiàn)機(jī)器人在真實(shí)世界里快速學(xué)習(xí),并完成高難度動作,現(xiàn)在單卡1小時的訓(xùn)練就能實(shí)現(xiàn)真實(shí)世界380天的訓(xùn)練效果。

盡管完美匹配智能本體的世界模型還未出現(xiàn),但具身智能近兩年的發(fā)展已經(jīng)遠(yuǎn)超從業(yè)者預(yù)期。

不久前,特斯拉CEO馬斯克在年度股東大會上表示,特斯拉將于2025年開始“限量生產(chǎn)”O(jiān)ptimus(擎天柱)人形機(jī)器人,明年特斯拉將有上千臺在運(yùn)行的Optimus機(jī)器人。達(dá)闥更是在現(xiàn)場預(yù)售起具身智能人形機(jī)器人XR4,價格39.9萬元起。

宇樹科技CEO王興興認(rèn)為,最遲明年年底之前,全球范圍內(nèi)一定會出現(xiàn)比人跑得快的人形機(jī)器人,“比如說100米跑進(jìn)10秒,在體育項目和文藝演出上,人形機(jī)器人比做家務(wù)應(yīng)該更得心應(yīng)手?!?/p>

許彬?qū)夹g(shù)的迭代速度樂觀地判斷道,未來3~5年,人形機(jī)器人可以在一些工廠智能制造產(chǎn)線運(yùn)行,未來5~10年可以在家庭服務(wù)等場景運(yùn)用。

趨勢三:多路徑破局“鐵幕”,國產(chǎn)算力“春意浮動”

由AI帶來的算力風(fēng)暴,還有被美方拉下的“科技鐵幕”,使算力芯片成為近幾年WAIC上備受關(guān)注的焦點(diǎn)。

2022年WAIC期間,更是正面遭遇美國宣布對華斷供英偉達(dá)高端芯片。如今,兩年過去,當(dāng)美國不斷收緊芯片政策時,國產(chǎn)算力開始顯露出一絲春天的綠意。

“從今年開始,萬卡將是AI模型訓(xùn)練主戰(zhàn)場的標(biāo)配?!?月3日,國產(chǎn)芯片廠商摩爾線程創(chuàng)始人兼CEO張建中宣布,夸娥(KUAE)智算集群解決方案向萬卡萬P萬億參數(shù)通用算力集群升級,以全功能GPU為底座,打造能承載萬卡規(guī)模、具備萬P級浮點(diǎn)運(yùn)算能力的國產(chǎn)通用加速計算平臺,為萬億參數(shù)級別的大模型訓(xùn)練提供平臺。

截至目前,至少已有兩家國產(chǎn)芯片廠商實(shí)現(xiàn)了單池萬卡集群的能力,為我國自主可控的AI大模型攻堅建立了關(guān)鍵基礎(chǔ)設(shè)施。

新型異構(gòu)算力架構(gòu)也在嘗試解決算力規(guī)?;y題。無問芯穹推出的千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺,采用“MxN”方案,M層是大模型,N層是各種國內(nèi)外芯片,可以通過算子優(yōu)化、自動編譯、不同芯片耦合等技術(shù)一鍵部署模型,支持Baichuan2、ChatGLM3、Llama2、Qwen系列等20多個模型,在AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA等六種異構(gòu)芯片上混合訓(xùn)練,算力利用率最高達(dá)97.6%。

無問芯穹希望解決國內(nèi)AI領(lǐng)域存在的“生態(tài)豎井”難題,雖然不同芯片組成的算力構(gòu)成了集群,但在生態(tài)邏輯上,整個軟件棧并不能夠很好地協(xié)調(diào)和打通。無問芯穹構(gòu)建的是一個AI Native基礎(chǔ)設(shè)施,可以適配中國獨(dú)特的多模型、多芯片生態(tài)格局,將多種異構(gòu)算力構(gòu)建成大系統(tǒng),快速完成大模型的訓(xùn)練和推理。

受限于芯片禁令,國內(nèi)在單池超大規(guī)模集群建設(shè)上面臨困境,只有幾個互聯(lián)網(wǎng)大廠和電信運(yùn)營商有芯片儲備和技術(shù)能力,而根據(jù)大模型的Scaling Law(尺度定律),至少在現(xiàn)有路徑上,更多的算力才能造就更多的智能涌現(xiàn)。

電信運(yùn)營商也開始尋找另外的方向,以網(wǎng)強(qiáng)算?!拔覀円呀?jīng)在實(shí)驗室實(shí)現(xiàn)了百公里內(nèi)的并池計算?!眲⒕粗t告訴記者,為了突破單池算力限制,中國電信正在嘗試?yán)?00G/800G的超高寬帶將兩個位于不同區(qū)域的實(shí)驗室,無損高速連接起來,同一個預(yù)訓(xùn)練任務(wù)可以同步部署在兩個相隔百公里的實(shí)驗室里,而且連續(xù)訓(xùn)練時長與在同一個物理數(shù)據(jù)中心內(nèi)訓(xùn)練相當(dāng),“下一步,我們還將在京滬兩個單池萬卡群間進(jìn)行超高速直連測試”。

一旦實(shí)驗成功,將大大緩解國產(chǎn)大模型的“算力焦慮”。GPT-4模型有2萬億參數(shù)和8萬億token,10000顆英偉達(dá)H100,需要訓(xùn)練三個月,換成最新的超級芯片BX200,10000顆芯片只需要10天。而受限于產(chǎn)能,目前能夠穩(wěn)定供貨萬卡以上的國產(chǎn)芯片并不多。如果數(shù)據(jù)中心間網(wǎng)速能夠幾乎等同于數(shù)據(jù)中心內(nèi)部高速互聯(lián),此前全國各地零散建設(shè)的地方智算中心,將可被有效利用。

多路徑破局“鐵幕”的嘗試,讓國產(chǎn)算力和國產(chǎn)大模型的春天悄然而至。

作者:IT時報記者 郝俊慧

編輯:孫妍

本文由人人都是產(chǎn)品經(jīng)理作者【IT時報】,微信公眾號:【IT時報】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!