2028年第一個(gè)AGI將到來?谷歌DeepMind提6條AGI標(biāo)準(zhǔn),定義5大AGI等級(jí)

0 評(píng)論 3681 瀏覽 2 收藏 28 分鐘

人類什么時(shí)候可能開發(fā)出第一個(gè)AGI?關(guān)于這個(gè)問題,DeepMind創(chuàng)始人Shane Legg帶領(lǐng)的研究團(tuán)隊(duì)發(fā)表了一篇關(guān)于AGI時(shí)間表的論文,論文中給出了AGI的路線圖和時(shí)間表。一起來看看本文的分享吧。

人類距離第一個(gè)AGI的出現(xiàn)已經(jīng)越來越近了!

DeepMind聯(lián)合創(chuàng)始人,首席AGI科學(xué)家Shane Legg在不久前的訪談中認(rèn)為,2028年,人類有50%的概率開發(fā)出第一個(gè)AGI。

而就在今天,他帶領(lǐng)的DeepMind研究團(tuán)隊(duì)在Arxiv上公布了一篇論文,直接放出了AGI的路線圖和時(shí)間表。

論文地址:https://arxiv.org/abs/2311.02462

雖然論文主題感覺很大很空,但是網(wǎng)友認(rèn)為文章很好的定義了AGI,避免了以后各種雞同鴨講的討論。

研究團(tuán)隊(duì)認(rèn)為,從性能強(qiáng)度和通用性兩個(gè)維度,可以將人類和AI的關(guān)系劃分為5個(gè)階段,而現(xiàn)在大語言模型的出現(xiàn),正屬于第一個(gè)通用AI的階段:AGI雛形。

以O(shè)penAI的ChatGPT,谷歌Bard,Meta的Llama為代表的大模型,已經(jīng)在通用性上展示出了AGI的潛力。

因?yàn)榇笳Z言模型已經(jīng)能完成范圍相當(dāng)廣的各類任務(wù),而且表現(xiàn)出了像學(xué)習(xí)新技能這樣的「元認(rèn)知」能力。

而如果單從AI的性能維度上看,「窄AI(Narrow AI)」類型的AI已經(jīng)達(dá)到了完全超越人類認(rèn)知的水平。

以AlphaFold,AlphaZero為代表的專業(yè)領(lǐng)域AI,在特定領(lǐng)域已經(jīng)能發(fā)現(xiàn)人類智力無法發(fā)現(xiàn)的新事物了。研究團(tuán)隊(duì)將其稱為「超人類窄AI」。

而和人類相比,在某個(gè)領(lǐng)域達(dá)到99%的人類的水平,比如在棋類競技中能夠戰(zhàn)勝人類頂尖大師的「深藍(lán)」和AlphaGo,就屬于這一類。研究團(tuán)隊(duì)將它們稱為「大師級(jí)窄AI」。

而在某些領(lǐng)域,AI能達(dá)到90%的人類水平,比如文書糾正AI Grammarly,DALL·E 2,Imagen等生圖AI。研究團(tuán)隊(duì)將其稱為「專家級(jí)窄AI」。

在特定領(lǐng)域,能達(dá)到普通人的平均水平,比如Siri,谷歌助手這類普通智能助理。研究團(tuán)隊(duì)將其稱為「普通窄AI」。

而在這四個(gè)窄AI已經(jīng)覆蓋的能力維度上,通用AI都還沒有出現(xiàn)對(duì)應(yīng)的實(shí)例。

而進(jìn)一步,因?yàn)槟壳斑€沒有出現(xiàn)真正意義上的AGI,對(duì)于AGI的定義,人類還沒有達(dá)到統(tǒng)一的認(rèn)知。

所以論文中還提供了定義AGI的6個(gè)準(zhǔn)則:

  1. 關(guān)注能力而非過程。AGI定義應(yīng)該關(guān)注一個(gè)系統(tǒng)能達(dá)到的效果,而不是實(shí)現(xiàn)這些效果的內(nèi)在機(jī)制。
  2. 關(guān)注通用性和性能。AGI定義應(yīng)同時(shí)考量通用性和性能這兩個(gè)維度。
  3. 關(guān)注認(rèn)知和元認(rèn)知任務(wù)。AGI的定義應(yīng)關(guān)注認(rèn)知任務(wù),以及元認(rèn)知能力如學(xué)習(xí)新技能。不需要作為前提要求。
  4. 關(guān)注潛能而非部署。理論上證明系統(tǒng)能完成某類任務(wù)就可認(rèn)為它具備AGI潛能,不需要一定要實(shí)際部署。
  5. 關(guān)注真實(shí)場景。用于AGI測評(píng)的任務(wù)應(yīng)考慮真實(shí)場景的適用性,而不僅是容易量化的指標(biāo)。
  6. 關(guān)注通向AGI的路徑,而非單一目標(biāo)。AGI定義應(yīng)采用分級(jí)方式,考慮不同水平的路徑,而不僅是最終目標(biāo)。

在論文的最后一個(gè)部分,作者還提出了對(duì)于未來可能出現(xiàn)的AGI的測評(píng)與風(fēng)險(xiǎn)評(píng)估問題。

在作者看來,需要考慮人類與AGI的互動(dòng)模式,僅看模型能力來評(píng)估AGI是非常片面的。

具體來說,AGI的能力不同于AGI的自主性。隨著AGI能力的增強(qiáng),會(huì)解鎖更高級(jí)的人機(jī)互動(dòng)模式,但不意味著就必須給予AGI最大的自主性。

在這個(gè)技術(shù)之上,作者提出了6種人機(jī)互動(dòng)模式:無AI、AI工具、AI顧問、AI協(xié)作者、AI專家、AI智能體。

不同的人機(jī)互動(dòng)模式需要不同的AGI能力作為前提,比如AI智能體可能需要AI能力達(dá)到專家或者超人類AI級(jí)別,才能更好地完成這個(gè)互動(dòng)模式處理的任務(wù)。

人機(jī)互動(dòng)模式本身會(huì)引入不同類型的風(fēng)險(xiǎn)。例如AI智能體具有最高的自主性,但同時(shí)也引入了最大風(fēng)險(xiǎn)。

因此,AGI的風(fēng)險(xiǎn)評(píng)估需要同時(shí)考慮模型能力和人機(jī)互動(dòng)模式。合理的互動(dòng)模式選擇有助于AGI系統(tǒng)的負(fù)責(zé)任部署。

人機(jī)互動(dòng)研究需要與模型能力提升保持同步,以支持對(duì)AGI系統(tǒng)的安全且有效的利用。

一、AGI,黎明還是黃昏?

從1955年達(dá)特茅斯人工智能會(huì)議開始 ,人類就朝著實(shí)現(xiàn)「真正的智能」這顆北極星曲折前進(jìn),途中也經(jīng)過了不同的道路。

AGI的概念與對(duì)人工智能進(jìn)步的預(yù)測有關(guān),它正在朝著更大的普遍性發(fā)展,接近并超越人類的普遍性。

此外,AGI通常與「涌現(xiàn)」一詞交織在一起,有能力實(shí)現(xiàn)開發(fā)人員未明確預(yù)期的功能。這種能力使新型互動(dòng)或新行業(yè)成為可能。

AGI可能產(chǎn)生重大的經(jīng)濟(jì)影響——我們是否達(dá)到了廣泛勞動(dòng)力替代的必要標(biāo)準(zhǔn)?

AGI還可能帶來與經(jīng)濟(jì)優(yōu)勢有關(guān)的其他方面的影響。

同樣,我們也應(yīng)該通過評(píng)估AGI的水平來預(yù)防她帶來的風(fēng)險(xiǎn)。

正如一些人推測的那樣,AGI系統(tǒng)可能能夠欺騙和操縱、積累資源、推進(jìn)目標(biāo)、代理行為,并遞歸地自我改進(jìn),最終在廣泛的領(lǐng)域中取代人類。

所以,對(duì)于人工智能研究界來說,明確反思我們所說的「AGI」的含義,并量化人工智能系統(tǒng)的性能、通用性和自主性等屬性至關(guān)重要。

我們必須理解自己在AGI道路上所處的位置。

二、AGI案例分析

首先,我們應(yīng)當(dāng)考慮如何正確定義AGI,也許可以從一些案例中獲得啟發(fā)。

案例1:圖靈測試。1950年的圖靈測試可能是將類似AGI的概念付諸實(shí)踐的最知名的嘗試。圖靈的「模仿游戲」被認(rèn)為是一種將機(jī)器是否可以思考的問題操作化的方法。

鑒于現(xiàn)代LLM通過了圖靈測試的一些框架,很明顯,這個(gè)標(biāo)準(zhǔn)不足以作為評(píng)估AGI的基準(zhǔn)。

我們同意圖靈的觀點(diǎn),機(jī)器是否可以「思考」確實(shí)是一個(gè)有趣的哲學(xué)和科學(xué)問題,

但機(jī)器能做什么的問題顯然對(duì)于評(píng)估影響更重要,也更易于衡量。因此,AGI應(yīng)該根據(jù)能力而不是過程來定義。

案例2:與人腦的類比。「通用人工智能」一詞的最初使用是在1997年馬克·古布魯?shù)伦珜懙囊黄P(guān)于軍事技術(shù)的文章中,該文章將AGI定義為「在復(fù)雜性和速度上與人腦相媲美或超過人腦的人工智能系統(tǒng)」。

雖然現(xiàn)代ML系統(tǒng)背后的神經(jīng)網(wǎng)絡(luò)架構(gòu)松散地受到人腦的啟發(fā),但基于transformer的架構(gòu)的成功表明,嚴(yán)格的基于大腦的過程和基準(zhǔn)對(duì)于AGI來說并不是必要的。

案例3:學(xué)習(xí)任務(wù)的能力。在《技術(shù)奇點(diǎn)》中,沙納漢認(rèn)為,AGI是「人工智能」,它不是專門用于執(zhí)行特定任務(wù)的,而是可以學(xué)習(xí)執(zhí)行與人類一樣廣泛的任務(wù)。該框架的一個(gè)重要特性是它強(qiáng)調(diào)將元認(rèn)知任務(wù)(學(xué)習(xí))納入實(shí)現(xiàn)AGI的要求中的價(jià)值。

案例4:具有經(jīng)濟(jì)價(jià)值的工作。OpenAI的章程將AGI定義為「高度自主的系統(tǒng),在最具經(jīng)濟(jì)價(jià)值的工作中表現(xiàn)優(yōu)于人類」。

這個(gè)定義側(cè)重于與底層機(jī)制無關(guān)的性能,并且提供了潛在的衡量標(biāo)準(zhǔn),即經(jīng)濟(jì)價(jià)值。

但問題在于,有許多與智力相關(guān)的任務(wù)可能沒有明確的經(jīng)濟(jì)價(jià)值(例如,藝術(shù)創(chuàng)造力或情商)。

而且,我們很可能擁有在技術(shù)上能夠執(zhí)行經(jīng)濟(jì)上重要任務(wù)的系統(tǒng),但由于各種原因(法律、道德、社會(huì)等)而沒有意識(shí)到這種經(jīng)濟(jì)價(jià)值。

案例5:馬庫斯認(rèn)為AGI是「任何智能的簡寫,具有與(或超越)人類智能相當(dāng)?shù)淖阒嵌嘀\和可靠性」。

他通過提出五項(xiàng)具體任務(wù)(理解一部電影、理解一本小說、在任意廚房做飯、編寫一個(gè)無錯(cuò)誤的10000行程序以及將自然語言數(shù)學(xué)證明轉(zhuǎn)換為符號(hào)形式)來實(shí)施他的定義。

案例6:Agüera y Arcas和Norvig認(rèn)為最先進(jìn)的LLM已經(jīng)是AGI,而通用性是AGI的關(guān)鍵屬性。

由于語言模型可以討論廣泛的主題、執(zhí)行廣泛的任務(wù)、處理多模態(tài)輸入和輸出, 以多種語言操作,并從零樣本或少樣本示例中「學(xué)習(xí)」,它們已經(jīng)達(dá)到了足夠的通用性。

三、AGI六大準(zhǔn)則

通過對(duì)以上幾個(gè)案例的思考,作者為AGI的定義制定了以下六個(gè)標(biāo)準(zhǔn):

第一條:關(guān)注能力,而不是流程。大多數(shù)定義關(guān)注的是AGI可以完成什么,而不是它完成任務(wù)的機(jī)制。

這對(duì)于識(shí)別不一定是實(shí)現(xiàn)AGI的先決條件的特征非常重要。

因?yàn)?,?shí)現(xiàn)AGI并不意味著系統(tǒng)以類似人類的方式思考或理解;也并不意味著系統(tǒng)具有意識(shí)或感知等。

第二條:注重通用性和性能。上述所有定義都在不同程度上強(qiáng)調(diào)普遍性,另外,性能也是AGI的關(guān)鍵組成部分。

第三條:專注于認(rèn)知和元認(rèn)知任務(wù)。

人工智能系統(tǒng)的物理能力似乎落后于非物理能力。作者認(rèn)為,執(zhí)行物理任務(wù)的能力增加了系統(tǒng)的通用性,但不應(yīng)被視為實(shí)現(xiàn)AGI的必要先決條件。

另一方面,元認(rèn)知能力(例如學(xué)習(xí)新任務(wù)的能力或知道何時(shí)向人類尋求澄清或幫助的能力)是系統(tǒng)實(shí)現(xiàn)通用性的關(guān)鍵先決條件。

第四條:關(guān)注潛力,而不是部署。因?yàn)橐蟛渴鹱鳛楹饬緼GI的條件會(huì)帶來非技術(shù)障礙,例如法律和社會(huì)考慮,以及潛在的道德和安全問題。

第五條:注重生態(tài)效度。這里強(qiáng)調(diào)選擇與人們重視的現(xiàn)實(shí)世界(即生態(tài)有效)任務(wù)相一致的任務(wù)的重要性(廣義地解釋價(jià)值,不僅作為經(jīng)濟(jì)價(jià)值,還包括社會(huì)價(jià)值、藝術(shù)價(jià)值等)。

最后一條:專注于AGI的路徑,而不是單個(gè)端點(diǎn)。作者將AGI的每個(gè)級(jí)別與一組明確的指標(biāo)相關(guān)聯(lián),并且每個(gè)級(jí)別引入已識(shí)別風(fēng)險(xiǎn),以及由此產(chǎn)生的人機(jī)交互范式的變化。

四、AGI水平定義

作者給出如下表格,清晰地提出了一種分類或者說評(píng)估方法,規(guī)定了達(dá)到給定評(píng)級(jí)所需的大多數(shù)任務(wù)的最低性能。

為便于理解,這里將下表中的后五類翻譯為:入門、普通、專家、大師和超人級(jí)別。

比如,在大多數(shù)認(rèn)知任務(wù)中,有能力的AGI必須至少達(dá)到熟練成年人的平均水平,但在任務(wù)子集上可能具有專家、大師甚至超人的表現(xiàn)。

舉個(gè)例子,截至2023年9月撰寫本文時(shí),前沿語言模型(例如,ChatGPT、Bard、Llama2等)在某些任務(wù)(例如,短文寫作、簡單編碼)中表現(xiàn)出「普通」的性能水平,但對(duì)于大多數(shù)任務(wù)(例如, 數(shù)學(xué)能力,涉及事實(shí)性的任務(wù))來說,僅表現(xiàn)出「入門」的性能水平。

因此,總體而言,當(dāng)前的前沿語言模型將被視為1級(jí)通用AI,當(dāng)更廣泛的任務(wù)的性能水平提高時(shí),就可以達(dá)到2級(jí)通用AI的門檻。

另外需要注意的是,在特定認(rèn)知領(lǐng)域獲得更強(qiáng)技能的順序可能會(huì)對(duì)人工智能安全產(chǎn)生嚴(yán)重影響。

例如,在獲得強(qiáng)大的道德推理技能之前獲得強(qiáng)大的化學(xué)工程知識(shí)可能是一個(gè)危險(xiǎn)的組合。

雖然該分類法根據(jù)系統(tǒng)的性能對(duì)系統(tǒng)進(jìn)行評(píng)級(jí),但能夠達(dá)到一定性能水平的系統(tǒng)在部署時(shí)可能不匹配此級(jí)別。

以DALL·E 2為例,因?yàn)镈ALL·E 2產(chǎn)生的圖像質(zhì)量比大多數(shù)人能夠繪制的更好,所以可以評(píng)估為「專家」級(jí)別的性能。然而該系統(tǒng)存在故障模式,使其無法獲得「大師」的稱號(hào)。所以可以將其估計(jì)為分類法中的3級(jí)窄AI(「專家級(jí)窄AI」)。

在上面的表格中,作者引入了一個(gè)矩陣式調(diào)平系統(tǒng),該系統(tǒng)側(cè)重于性能和通用性,這是AGI的兩個(gè)核心維度。

就綜合性能和通用性而言,矩陣中的最高級(jí)別是ASI(人工超級(jí)智能)。而「超人」的表現(xiàn)意味著100% 優(yōu)于人類。

例如,這里假設(shè)AlphaFold是5級(jí)窄AI (「超人級(jí)窄AI」),因?yàn)樗鼒?zhí)行的單項(xiàng)任務(wù)(從氨基酸序列預(yù)測蛋白質(zhì)的3D結(jié)構(gòu))高于世界頂級(jí)科學(xué)家的水平。

該定義意味著5級(jí)通用AI (ASI) 系統(tǒng)將能夠以人類無法比擬的水平完成廣泛的任務(wù)。

五、AGI測試

在作者的方案中,人工智能系統(tǒng)必須掌握多大比例的此類任務(wù)才能達(dá)到給定的通用性水平?是否有一些任務(wù)(如元認(rèn)知任務(wù))必須始終執(zhí)行才能達(dá)到某些通用性級(jí)別的標(biāo)準(zhǔn)?

要實(shí)現(xiàn)AGI定義的可操作性,就必須回答這些問題,并開發(fā)出具體的多樣化和具有挑戰(zhàn)性的任務(wù)。

鑒于這一過程的巨大復(fù)雜性,以及納入廣泛視角(包括跨組織和多學(xué)科觀點(diǎn))的重要性,作者在本文中并未提出一個(gè)基準(zhǔn)。

相反,作者致力于澄清基準(zhǔn)應(yīng)嘗試衡量的本體。作者還討論了AGI基準(zhǔn)應(yīng)具備的屬性。

AGI基準(zhǔn)將包括一套廣泛的認(rèn)知和元認(rèn)知任務(wù)(根據(jù)原則3),測量包括(但不限于)語言智能、數(shù)學(xué)和邏輯推理、空間推理、人際和人內(nèi)社交智能、學(xué)習(xí)新技能的能力和創(chuàng)造力在內(nèi)的各種特性。

基準(zhǔn)可能包括心理學(xué)、神經(jīng)科學(xué)、認(rèn)知科學(xué)和教育學(xué)中的智能理論所提出的心理測量類別測試。

但是,必須首先評(píng)估這些 「傳統(tǒng) 」測試是否適合用于計(jì)算系統(tǒng)基準(zhǔn)測試,因?yàn)樵谶@種情況下,許多測試可能缺乏生態(tài)和構(gòu)造有效性。

基準(zhǔn)性能的一個(gè)未決問題是,是否允許使用工具(包括可能由人工智能驅(qū)動(dòng)的工具)作為人類性能的輔助工具。

這一選擇最終可能取決于任務(wù),并應(yīng)在基準(zhǔn)選擇中考慮生態(tài)有效性(原則5)。

例如,在確定自動(dòng)駕駛汽車是否足夠安全時(shí),與一個(gè)沒有任何現(xiàn)代人工智能輔助安全工具的人進(jìn)行比較,并不是最有參考價(jià)值的比較。

因?yàn)橄嚓P(guān)的反事實(shí)涉及到一些駕駛輔助技術(shù),作者可能更傾向于與該基線進(jìn)行比較。

或交互式任務(wù),這些任務(wù)可能需要定性評(píng)估。作者猜測,后幾類復(fù)雜的開放式任務(wù)雖然難以確定基準(zhǔn),但其生態(tài)有效性將優(yōu)于傳統(tǒng)的人工智能指標(biāo),或優(yōu)于經(jīng)過調(diào)整的傳統(tǒng)人類智能指標(biāo)。

AGI所能完成的全部任務(wù)是不可能一一列舉的。因此,人工智能基準(zhǔn)應(yīng)該是一個(gè)活的基準(zhǔn)。因此,這種基準(zhǔn)應(yīng)包括一個(gè)生成和確定新任務(wù)的框架。

要確定某物在特定水平上不是一個(gè)AGI,只需找出人們通??梢酝瓿傻到y(tǒng)無法充分執(zhí)行的5項(xiàng)任務(wù)即可。

在特定性能級(jí)別(「雛形」、「普通」等)上通過大部分設(shè)想的AGI基準(zhǔn)測試的系統(tǒng),包括測試人員添加的新任務(wù),可以被假定為具有相關(guān)的通用性級(jí)別(即,盡管在理論上AGI仍有可能無法通過測試,但在某些時(shí)候,未通過測試的情況會(huì)變得非常專業(yè)或非典型,以至于實(shí)際上無關(guān)緊要)。

制定AGI基準(zhǔn)將是一個(gè)具有挑戰(zhàn)性的迭代過程。盡管如此,它仍是人工智能研究領(lǐng)域的一個(gè)北斗星級(jí)別的目標(biāo)。

對(duì)復(fù)雜概念的衡量可能并不完美,但衡量的行為有助于我們清晰地定義目標(biāo),并提供一個(gè)衡量進(jìn)展的指標(biāo)。

六、關(guān)于AGI風(fēng)險(xiǎn)的討論

關(guān)于人工智能的討論通常包括對(duì)風(fēng)險(xiǎn)的討論。

采用分層的方法來定義人工智能,可以更細(xì)致地討論性能和通用性的不同組合如何與不同類型的人工智能風(fēng)險(xiǎn)相關(guān)聯(lián)。

當(dāng)我們沿著人工智能的能力水平前進(jìn)時(shí),會(huì)引入新的風(fēng)險(xiǎn),包括誤用風(fēng)險(xiǎn)、調(diào)整風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)。

例如,「專家級(jí)人工智能 」水平很可能涉及與經(jīng)濟(jì)混亂和工作崗位轉(zhuǎn)移相關(guān)的結(jié)構(gòu)性風(fēng)險(xiǎn),因?yàn)樵絹碓蕉嗟男袠I(yè)達(dá)到了機(jī)器智能替代人類勞動(dòng)力的門檻。另一方面,達(dá)到 「專家級(jí)AGI 」可能會(huì)減輕 「AGI雛形 」和 「普通級(jí)AGI 」帶來的一些風(fēng)險(xiǎn),如任務(wù)執(zhí)行錯(cuò)誤的風(fēng)險(xiǎn)。

在 「大師級(jí)人工智能 」和 「專家級(jí)人工智能」級(jí)別中,最有可能出現(xiàn)許多與x風(fēng)險(xiǎn)有關(guān)的問題(例如,人工智能可以在各種任務(wù)中超越人類操作員,但可能會(huì)欺騙人類操作員以實(shí)現(xiàn)錯(cuò)誤的目標(biāo),如錯(cuò)誤對(duì)齊思想實(shí)驗(yàn))。

如果不同級(jí)別之間的進(jìn)展速度超過了監(jiān)管或外交的速度(例如,第一個(gè)實(shí)現(xiàn)人工智能的國家可能會(huì)擁有巨大的地緣政治/軍事優(yōu)勢,從而產(chǎn)生復(fù)雜的結(jié)構(gòu)性風(fēng)險(xiǎn)),那么國際關(guān)系不穩(wěn)定等系統(tǒng)性風(fēng)險(xiǎn)可能會(huì)成為一個(gè)令人擔(dān)憂的問題。

「專家型人工智能」(如 「新興人工智能」、「勝任型人工智能 」和所有 「狹義 」人工智能類別),風(fēng)險(xiǎn)可能更多來自人類行為(如人工智能誤用風(fēng)險(xiǎn),無論是意外、偶然還是惡意)。

對(duì)與每個(gè)級(jí)別相關(guān)的風(fēng)險(xiǎn)概況進(jìn)行更全面的分析,是制定AGI分類法的關(guān)鍵一步,可以為安全/倫理研究和政策制定提供指導(dǎo)。

1. 能力和自主性

雖然能力為人工智能風(fēng)險(xiǎn)提供了先決條件,但人工智能系統(tǒng)(包括AGI系統(tǒng))不會(huì)也不會(huì)在真空中運(yùn)行。

相反,人工智能系統(tǒng)是與特定界面一起部署的,用于在特定場景中完成特定任務(wù)。

這些背景屬性(界面、任務(wù)、場景、最終用戶)對(duì)風(fēng)險(xiǎn)狀況有重大影響。AGI能力本身并不能決定風(fēng)險(xiǎn)方面的命運(yùn),而必須與背景細(xì)節(jié)結(jié)合起來考慮。

例如,考慮AGI系統(tǒng)用戶界面的承受能力。能力的不斷提高會(huì)釋放出新的交互范式,但并不能決定這些范式。

相反,系統(tǒng)設(shè)計(jì)者和終端用戶將確定一種人與人工智能的交互模式,這種模式將平衡包括安全性在內(nèi)的各種考慮因素。作者建議用表2中描述的六個(gè)自主水平來描述人機(jī)交互范式。

這些自主水平與AGI水平相關(guān)。更高水平的自主性可通過AGI能力的提升而 「解鎖」。

圍繞人與人工智能的互動(dòng)做出深思熟慮的選擇,對(duì)于安全、負(fù)責(zé)任地部署前沿人工智能模型至關(guān)重要。

要使特定的交互范式變得理想,可能需要某些方面的通用性。

例如,只有當(dāng)人工智能系統(tǒng)在某些元認(rèn)知能力(學(xué)會(huì)何時(shí)向人類尋求幫助、心智理論建模、社會(huì)情感技能)方面也表現(xiàn)出很強(qiáng)的性能時(shí),自主性等級(jí)3、4和5(「合作者」、「專家 」和 「智能體」)才可能發(fā)揮良好的作用。

作者對(duì)第五級(jí)自主性(「作為智能體的人工智能」)的定義中隱含的意思是,這種完全自主的人工智能可以在沒有人類持續(xù)監(jiān)督的情況下以一致的方式行動(dòng),但也知道何時(shí)向人類咨詢。

通過更好的任務(wù)規(guī)范、彌合流程鴻溝和產(chǎn)出評(píng)估來支持人類與人工智能協(xié)調(diào)的界面,是確保人機(jī)交互領(lǐng)域跟上與人工智能系統(tǒng)互動(dòng)的挑戰(zhàn)和機(jī)遇的重要研究領(lǐng)域。

2. 作為風(fēng)險(xiǎn)評(píng)估框架的人機(jī)交互范式

上表2說明了AGI級(jí)別、自主級(jí)別和風(fēng)險(xiǎn)之間的相互作用。

模型性能和通用性的進(jìn)步提供了更多的交互范式選擇(包括潛在的完全自主的人工智能)。

這些交互范式反過來又引入了新的風(fēng)險(xiǎn)類別。

與單獨(dú)考慮模型能力相比,模型能力和交互設(shè)計(jì)的相互作用將使風(fēng)險(xiǎn)評(píng)估和負(fù)責(zé)任的部署決策更加細(xì)致入微。

表2還提供了作者提出的六個(gè)自主級(jí)別中每個(gè)級(jí)別的具體示例。

對(duì)于每個(gè)自主水平,作者都指出了 「解鎖 」該交互范式的相應(yīng)性能和通用性水平(即該范式有可能或有可能成功部署和采用的AGI水平)。

作者對(duì) 「解鎖 」水平的預(yù)測往往要求狹義人工智能系統(tǒng)的性能水平高于通用人工智能系統(tǒng)。

例如,作者認(rèn)為,無論是專家級(jí)狹義人工智能還是新興人工智能,都有可能將人工智能用作顧問。

這種差異反映了這樣一個(gè)事實(shí),即對(duì)于通用系統(tǒng)來說,能力發(fā)展很可能是不均衡的。

例如,一級(jí)通用人工智能(「AGI雛形」)很可能在某些子任務(wù)集上達(dá)到二級(jí)甚至三級(jí)性能。

通用人工智能能力的這種不均衡性可能會(huì)使其在執(zhí)行與其特定優(yōu)勢相符的特定任務(wù)時(shí)獲得更高的自主水平。

在人類使用的背景下考慮 AGI 系統(tǒng),可以讓我們思考模型的進(jìn)步與人類-AI 交互范式的進(jìn)步之間的相互作用。

模型的進(jìn)步與人與人工智能交互范式的進(jìn)步之間的相互作用。模型研究的作用可以看作是幫助系統(tǒng)的能力沿著通往AGI的道路不斷進(jìn)步,提高其性能和通用性。

這樣,人工智能系統(tǒng)的能力將與人類能力的重疊部分越來越大。相反,人與人工智能交互研究的作用可以被視為確保新的人工智能系統(tǒng)能夠?yàn)槿祟愃貌?duì)人類有用,從而使人工智能系統(tǒng)成功地?cái)U(kuò)展人類的能力。

參考資料:

https://huggingface./papers/2311.02462

編輯:潤,alan

來源公眾號(hào):新智元(ID:AI_era),“智能+”中國主平臺(tái),致力于推動(dòng)中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!