從文字模型到世界模型!Meta新研究讓AI Agent理解物理世界

1 評(píng)論 360 瀏覽 1 收藏 9 分鐘

Meta新發(fā)布的開(kāi)放詞匯體驗(yàn)問(wèn)答(OpenEQA)基準(zhǔn),旨在衡量AI Agent對(duì)物理空間的理解能力,但目前AI Agent的水平,還是無(wú)法與人類(lèi)媲美。

LLM已經(jīng)可以理解文本和圖片了,也能夠根據(jù)它們的歷史知識(shí)回答各種問(wèn)題,但它們或許對(duì)周?chē)澜绠?dāng)前發(fā)生的事情一無(wú)所知。

現(xiàn)在LLMs也開(kāi)始逐步學(xué)習(xí)理解3D物理空間,通過(guò)增強(qiáng)LLMs的「看到」世界的能力,人們可以開(kāi)發(fā)新的應(yīng)用,在更多場(chǎng)景去獲取LLMs的幫助。

AI Agent,比如機(jī)器人或是智能眼鏡,它們可以通過(guò)感知和理解環(huán)境來(lái)回答一些開(kāi)放性問(wèn)題,比如「我把鑰匙放哪里了?」

這樣的AI Agent需要利用視覺(jué)等感知模式來(lái)理解其周?chē)h(huán)境,并能夠用清晰的日常語(yǔ)言有效地與人交流。

這類(lèi)似于構(gòu)建一個(gè)「世界模型」,即AI Agent可以對(duì)外部世界產(chǎn)生它自己的內(nèi)部理解方法,并能夠讓人類(lèi)通過(guò)語(yǔ)言查詢(xún)。

這是一個(gè)長(zhǎng)期的愿景和一個(gè)有挑戰(zhàn)的領(lǐng)域,也是實(shí)現(xiàn)人工通用智能的重要一步。

Meta的新研究OpenEQA(Embodied Question Answering)框架,即開(kāi)放詞匯體驗(yàn)問(wèn)答框架,為我們探索這個(gè)領(lǐng)域提供了新的可能。

一、EQA是什么?

EQA(Embodied Question Answering)是一種工具,用于檢查AI Agent是否真正理解周?chē)澜绨l(fā)生的事情。

畢竟,當(dāng)我們想要確定一個(gè)人對(duì)概念的理解程度時(shí),我們會(huì)問(wèn)他們問(wèn)題,并根據(jù)他們的答案形成評(píng)估。我們也可以對(duì)實(shí)體AI Agent做同樣的事情。

比如下圖的一些問(wèn)題實(shí)例:

[物體識(shí)別]

問(wèn):椅子上的紅色物體是什么?

答:一個(gè)背包

[屬性識(shí)別]

問(wèn):在所有的椅子中,這把椅子的獨(dú)特顏色是什么?

答:綠色

[空間理解]

問(wèn):這個(gè)房間可以容納10個(gè)人嗎?

答:可以

[物體狀態(tài)識(shí)別]

問(wèn):塑料水瓶是開(kāi)著的嗎?

答:不是

[功能推理]

問(wèn):我可以用鉛筆在什么東西上寫(xiě)?

答:紙

[世界知識(shí)]

問(wèn):最近有學(xué)生在這里嗎?

答:有

[物體定位]

問(wèn):我的未喝完的星巴克飲料在哪里?

答:在靠前的白板旁邊的桌子上

除此之外,EQA也更加有直接的應(yīng)用。

比如,當(dāng)你準(zhǔn)備出門(mén)卻找不到工卡時(shí),就就可以問(wèn)智能眼鏡它在哪里。而AI Agent則會(huì)通過(guò)利用其情節(jié)記憶回答說(shuō)徽章在餐桌上。

或者如果你在回家的路上餓了,就可以問(wèn)家庭機(jī)器人是否還剩下水果。根據(jù)其對(duì)環(huán)境的主動(dòng)探索,它可能會(huì)回答說(shuō)水果籃里有成熟的香蕉。

這些行為看上去很簡(jiǎn)單,畢竟LLMs在許多人認(rèn)為具有挑戰(zhàn)性的任務(wù)中表現(xiàn)出色,比如通過(guò)SAT或律師考試。

但現(xiàn)實(shí)是,即使是今天最先進(jìn)的模型,在EQA方面也很難達(dá)到人類(lèi)的表現(xiàn)水平。

這也是為什么Meta同時(shí)發(fā)布了OpenEQA基準(zhǔn)測(cè)試,讓研究人員可以測(cè)試他們自己的模型,并了解它們與人類(lèi)的表現(xiàn)相比如何。

二、OpenEQA:面向AI Agent的全新基準(zhǔn)

開(kāi)放詞匯體驗(yàn)問(wèn)答(OpenEQA)框架是一個(gè)新的基準(zhǔn)測(cè)試,通過(guò)向AI Agent提出開(kāi)放詞匯問(wèn)題來(lái)衡量其對(duì)環(huán)境的理解。

該基準(zhǔn)包含超過(guò)1600個(gè)非模板化的問(wèn)題和答案對(duì),這些問(wèn)題和答案來(lái)自人類(lèi)注釋者,代表了真實(shí)世界的使用情況,并提供了180多個(gè)物理環(huán)境的視頻和掃描指針。

OpenEQA包含兩個(gè)任務(wù):

  1. 情節(jié)記憶EQA,在這個(gè)任務(wù)中,一個(gè)實(shí)體的AI Agent根據(jù)其對(duì)過(guò)去經(jīng)歷的回憶回答問(wèn)題。
  2. 主動(dòng)EQA,在這個(gè)任務(wù)中,AI Agent必須在環(huán)境中采取行動(dòng)來(lái)收集必要的信息并回答問(wèn)題。

OpenEQA還配備了LLM-Match,這是一種用于評(píng)分開(kāi)放詞匯答案的自動(dòng)評(píng)估指標(biāo)。

下方是LLM-Match打分的流程,通過(guò)問(wèn)題和場(chǎng)景的輸入,AI大模型會(huì)給出回答,該回答會(huì)去和人類(lèi)的回答作對(duì)比,然后得到相應(yīng)的分?jǐn)?shù)。

三、現(xiàn)階段VLM的表現(xiàn)

一般來(lái)說(shuō),AI Agent的視覺(jué)能力是借助于視覺(jué)+語(yǔ)言基礎(chǔ)模型(VLM)。

研究員使用OpenEQA來(lái)評(píng)估了幾種最先進(jìn)的VLM,發(fā)現(xiàn)即使是性能最好的模型(如GPT-4V達(dá)到48.5%),與人類(lèi)的表現(xiàn)(85.9%)之間也存在著顯著差距。

值得注意的是,對(duì)于需要空間理解的問(wèn)題,即使是最好的VLM也幾乎是「盲目」的,即它們的表現(xiàn)幾乎不比僅文本模型更好。

例如,對(duì)于「我坐在客廳的沙發(fā)上看電視。我的身后是哪個(gè)房間?」這個(gè)問(wèn)題,模型基本上是隨機(jī)猜測(cè)不同的房間,沒(méi)有從視覺(jué)情景記憶中獲得對(duì)空間的理解。

這說(shuō)明VLM其實(shí)是回歸到文本中去捕捉關(guān)于世界的先驗(yàn)知識(shí),以此來(lái)回答視覺(jué)問(wèn)題。視覺(jué)信息并沒(méi)有給它們帶來(lái)實(shí)質(zhì)性的好處。

這也說(shuō)明,AI Agent在目前這個(gè)階段,還達(dá)不到能完全理解物理世界的能力。

但氣餒還為時(shí)過(guò)早,OpenEQA僅僅是第一個(gè)開(kāi)放詞匯的EQA基準(zhǔn)。

通過(guò)OpenEQA將具有挑戰(zhàn)性的開(kāi)放詞匯問(wèn)題與以自然語(yǔ)言回答的能力結(jié)合起來(lái),可以激發(fā)更多的研究,幫助AI理解并交流關(guān)于它所看到的世界的信息,也有助于研究人員跟蹤多模態(tài)學(xué)習(xí)和場(chǎng)景理解的未來(lái)進(jìn)展。

也不是沒(méi)有可能,突然哪天AI Agent又給我們帶來(lái)一個(gè)大驚喜呢?

參考資料:

https://ai.meta.com/blog/openeqa-embodied-question-answering-robotics-ar-glasses/

編輯:Mindy

來(lái)源公眾號(hào):新智元(ID:AI_era),“智能+”中國(guó)主平臺(tái),致力于推動(dòng)中國(guó)從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 文中的評(píng)測(cè)維度(物體識(shí)別、屬性識(shí)別…)具有啟發(fā)性,有利于客觀評(píng)估一個(gè)語(yǔ)言模型的綜合能力,請(qǐng)問(wèn)評(píng)測(cè)維度定義的來(lái)源是哪里?

    來(lái)自廣東 回復(fù)