我們離AGI還有多遠?

0 評論 1886 瀏覽 13 收藏 34 分鐘

我們離實現(xiàn)人工通用智能(AGI)究竟還有多遠?這個問題的答案,我們不妨從行業(yè)大咖的觀點來做進一步的探討。一起來看看本文的梳理和分享。

一、引言

在探索人工智能的邊界時,我們經(jīng)常面臨一個根本性的問題:我們離實現(xiàn)人工通用智能(AGI)還有多遠?這個問題不僅觸及技術進步的速度,也深刻反映了我們對智能本質的理解與期待。AGI或全能型人工智能,指的是一種具備人類智能全部能力的機器,能夠在任何認知任務上達到或超越人類的表現(xiàn)。從學術探討到科幻小說,AGI長久以來被視為技術進步的終極目標,它代表著人類智慧的延伸與超越。

然而,盡管近年來人工智能領域取得了顯著的進展,特別是在深度學習和大規(guī)模模型訓練方面,我們對AGI的追求仍然充滿了挑戰(zhàn)與不確定性。

一方面,模型如Claude 3 Opus的出現(xiàn)展示了AI在處理復雜問題和模擬人類行為方面的驚人能力;另一方面,這些進步也揭示了我們在理解智能本質、模擬復雜認知過程、以及在倫理和安全方面所面臨的深刻問題。因此,當我們問自己“我們離AGI還有多遠”時,我們不僅在探詢技術的邊界,更是在反思人類智慧的深度與廣度,以及我們愿意以怎樣的方式邁向那個未知的未來。

本文從“深度學習三巨頭”的觀點,AGI評測基準和當前大模型局限性等三個維度深度探討該問題。

二、深度學習三巨頭的觀點

1. LeCun:當前的AI還遠未達到人類智能

Yann LeCun(楊立坤),目前是Meta的副總裁兼首席AI科學家,同時也是紐約大學Courant數(shù)學科學研究所的教授。作為人工智能領域的領軍人物,LeCun對當前人工智能的發(fā)展趨勢和未來方向有著獨到的見解。他的觀點主要圍繞如何使機器能夠像人類和動物那樣理解和與世界互動,強調“常識”推理的重要性以及基于“世界模型”的預測和計劃能力。

LeCun批評了當前人工智能發(fā)展中主流的方法,尤其是依賴大型語言模型(如GPT-3)和強化學習的方法。他認為,僅僅通過擴大語言模型的規(guī)模,這些模型雖能處理文字和圖像,但缺乏對世界的直接理解或體驗,是無法達到人類級別人工智能的。同樣地,他也認為基于獎勵的試錯學習方法——強化學習,因為需要大量數(shù)據(jù),也不是通向泛化智能的可行路徑。

與此相對,LeCun提出了一種自主智能的架構,包括一個能夠預測世界未來狀態(tài)的世界模型。這個模型將通過無監(jiān)督的方式從未標記的數(shù)據(jù)中學習,從而無需明確指示就能理解世界動態(tài)。這個架構由六個模塊組成,包括執(zhí)行控制的配置器、理解當前狀態(tài)的感知模塊、預測的世界模型、決策的成本模塊、規(guī)劃行動的行動模塊,以及追蹤狀態(tài)和成本的短期記憶模塊。

LeCun的觀點是對AI社區(qū)探索當前主導范式之外的新方向的一次呼吁,強調模型以有意義的方式理解和預測世界的重要性。他在開發(fā)世界模型和自主智能架構方面的工作可能為開發(fā)能夠進行推理、規(guī)劃和以更人性化的方式與世界互動的更復雜的AI系統(tǒng)鋪平道路。

2. Hinton:人工智能將變得比我們更加智能

Geoffrey Hinton, 被譽為“深度學習之父”,近年來對人工智能的發(fā)展和潛在風險表達了一些引人深思的看法。他特別擔心,如果人工智能達到或超過人類智能,它們可能會找到操縱甚至殺害人類的方法。

Hinton警告說,我們可能接近這樣一個點,那時人工智能將變得比我們更加智能,這讓他感到恐懼。他特別擔心,某些人可能會利用這些工具,如在選舉和戰(zhàn)爭中操縱結果。為了防范這些風險,Hinton提出需要在技術行業(yè)領袖之間合作,以確定風險所在并采取措施。

Hinton擔心,隨著AI技術的快速發(fā)展,我們可能很難判斷什么是真實的?什么是虛擬的?他特別關注大型語言模型的發(fā)展,如GPT-4,它展現(xiàn)出了比人類更高效的學習能力,這讓他認為機器可能很快就會比人類更加智能。他指出,盡管大型語言模型的連接數(shù)與人腦相比還是非常小的,但它們能夠展示出驚人的學習能力,尤其是在少量學習(few-shot learning)的情況下,這些模型能夠快速學習新任務。Hinton認為,這挑戰(zhàn)了人們認為人腦在學習上具有某種魔法般的優(yōu)勢的觀點。

他認為如果不能控制AI,不法分子可能會利用它做壞事。他還擔憂,在短期內,互聯(lián)網(wǎng)可能會被假文本、照片和視頻淹沒,長期來看,這些技術甚至可能對人類構成威脅。Hinton在X(Twitter)上明確表示,他離開Google的原因不是為了批評該公司,而是為了能夠毫無顧忌地討論人工智能的危險,而不必擔心這些觀點會對他所在的公司產(chǎn)生影響。

總的來說,Hinton的看法提醒我們,隨著人工智能技術的發(fā)展,我們需要深思熟慮地評估其潛在的積極和消極影響,并采取適當?shù)念A防措施以確保技術的安全和負責任地使用。

3. Bengio:AI發(fā)展需要更加謹慎和有預見性的規(guī)劃和監(jiān)管

Yoshua Bengio是蒙特利爾大學計算機科學與運籌學系的教授,同時也是蒙特利爾學習算法研究所(MILA)的科學總監(jiān)。作為深度學習和人工智能領域的先驅之一,對當前AI技術的快速發(fā)展及其潛在風險表達了深切的關注。

Bengio聯(lián)合數(shù)百名技術領導者、AI研究者、政策制定者等,簽署了一封公開信,敦促所有AI實驗室同意暫停開發(fā)比GPT-4更強大的系統(tǒng)六個月。這一舉措旨在為私營行業(yè)、政府和公眾提供時間來充分理解AI及其應用,并圍繞它制定適當?shù)囊?guī)制措施。Bengio及其他參與者強調,這種快速的發(fā)展速度超出了我們理解、識別風險及緩解風險的能力。他們認為,六個月的時間可以為創(chuàng)建圍繞AI的治理、了解和風險緩解努力提供機會。Bengio認為很難準確知道人工智能達到人類智能水平還需要多少年或多少個十年。但目前的技術發(fā)展速度和資金投入加速了AI能力的提升,因此他呼吁需要緊急監(jiān)管來緩解AI發(fā)展帶來的最大風險。

在一次訪談中,Bengio討論了大型AI模型發(fā)展所帶來的風險,尤其是關于民主的安全。他指出,我們已經(jīng)能夠操縱信息,使其看起來非常真實,如深度偽造內容,他建議應該要求在AI生成的內容上加上標記或水印,以幫助觀眾區(qū)分哪些是AI生成的,哪些不是。他還強調了AI在創(chuàng)造假冒和有說服力的內容方面的能力,可能會使人們被AI算法所淹沒,從而破壞了民主依賴的共同現(xiàn)實基礎。

Bengio對于AI的這些表態(tài)不僅展示了他對技術發(fā)展?jié)撛谪撁嬗绊懙纳羁汤斫?,也體現(xiàn)了他對未來社會和技術治理的關注。他的觀點強調了在AI發(fā)展的道路上,需要更加謹慎和有預見性的規(guī)劃和監(jiān)管,以確保技術的進步能夠造福而非損害人類社會。

三、當前主流大模型的評價基準

1. AGI的評價方法

如何評估AGI的能力?這需要綜合一系列量化指標和多種測試方法,以捕捉人工智能在不同層面表現(xiàn)。這些方法大致包括:知識水平和邏輯推理的知識測驗;專業(yè)領域內應用能力的專業(yè)技能測試;策略和學習能力的復雜游戲;通過模擬環(huán)境評估適應性和問題解決的虛擬仿真;藝術作品原創(chuàng)性和審美的藝術創(chuàng)作;創(chuàng)新解決方案的能力評估;自然語言處理的圖靈測試;情感和社交互動的評價;在多任務性能、學習遷移、復雜問題解決、實時決策、道德困境應對、社會規(guī)范遵循、綜合感知和交互式任務的能力。這些多方位的測試旨在全面評價AGI的復雜智能水平。

目前,AGI常用的評估工具基本上是參考人類的專業(yè)考試和學術測評基準,而制作的專業(yè)化系列問題集。這些測試工具和數(shù)據(jù)集包括但不限于:

1)MMLU(Massive Multitask Language Understanding)

MMLU是旨在通過評估模型在零樣本(zero-shot)和少樣本(few-shot)設置中的表現(xiàn)來衡量在預訓練過程中獲得知識的能力。這種評估方式使得基準測試更具挑戰(zhàn)性,更接近于我們評估人類的方式。MMLU覆蓋了STEM(科學、技術、工程和數(shù)學)、人文學科、社會科學等57個學科領域,難度從基礎級別到高級專業(yè)級別不等,測試內容包括世界知識和問題解決能力。

2)MATH

MATH是一個專門設計來評估模型在數(shù)學問題解決能力上的測試。這種測試挑戰(zhàn)模型在理解和解決各種數(shù)學問題上的能力,包括但不限于代數(shù)、幾何、微積分和統(tǒng)計等領域。MATH測試通常涉及以下幾個關鍵方面:問題多樣性—包含不同類型的數(shù)學問題,涵蓋從基礎數(shù)學到高級數(shù)學的多個層面;推理能力—測試模型是否能夠邏輯推理和解決復雜的數(shù)學證明或計算問題;準確性—模型輸出的解決方案需要數(shù)學上的精確和正確;解釋性—除了提供正確答案外,評估模型是否能夠展示其解題步驟,即“解題思路”(Chain of Thought),有助于理解模型如何達到最終答案。

3)GSM8k(Grade School Math 8k)

GSM8k是一個專門為評估和訓練人工智能模型在解決數(shù)學問題方面的能力而設計的數(shù)據(jù)集。它包括大約8000個小學和初中水平的數(shù)學題目,這些題目設計來測試模型在進行算術運算、解析數(shù)學問題語境、以及應用基本數(shù)學理解和推理技能方面的表現(xiàn)。

4)HumanEval

HumanEval是一個由 OpenAI 設計的數(shù)據(jù)集,用于評估代碼生成模型的性能。它包括了一系列編程題目,這些題目通常包括問題描述、一個函數(shù)簽名和一組單元測試。這個數(shù)據(jù)集的主要目的是測試模型生成代碼的能力,尤其是代碼是否能在實際編程任務中有效運行。

5)GPQA(General Purpose Question Answering)

GPQA是紐約大學的研究者們構建了一個包括生物學、物理學和化學等多學科領域的多項選擇題數(shù)據(jù)集,共包含448個問題。該數(shù)據(jù)集在設計上旨在橋接專家與非專家的知識鴻溝,方法是由專家出題并確保答案的準確性,同時讓非專家進行嘗試,保障問題對非專家具備一定的挑戰(zhàn)性。

這份數(shù)據(jù)集的問題難度極高,即便是在相關學科領域已獲得或正在攻讀博士學位的專家,平均正確率也僅為65%。對于其他專業(yè)領域的非專家來說,這一比例更是降至34%。對比之下,像GPT-4這樣的先進AI模型在GPQA上的表現(xiàn)也只達到了39%的正確率。該數(shù)據(jù)集因此成為測試和發(fā)展能夠提高人機協(xié)作監(jiān)督下高效AI輸出方法的重要工具。

6)MGSM(Multilingual Grade School Math)

Google 發(fā)布的這個數(shù)據(jù)集是一個多語言數(shù)學問題解答能力的評估和訓練基準。它包括了從GSM8K(Grade School Math 8K)精選的250個數(shù)學問題,這些問題原本是用于測試小學水平的數(shù)學問答能力,并需要多步推理?,F(xiàn)在,這些問題已經(jīng)被人工注釋者翻譯成10種不同的語言,增加了它們的多樣性和可用性。GSM8K本身是一個包含8500個高質量數(shù)學文字問題的集合,這些問題語言多樣且旨在支持基礎數(shù)學問答任務。

這個被稱為MGSM的數(shù)據(jù)集,特別適合于開發(fā)和評估多語言問答系統(tǒng),尤其對于教育技術領域具有重要意義。它不僅能夠促進開發(fā)能夠理解和解答多種語言中提出的數(shù)學問題的AI系統(tǒng),而且為研究者們提供了一個平臺,用于探索和提升多語言自然語言處理模型在數(shù)學問題解答方面的性能。

7)DROP(Discrete Reasoning Over the content of Paragraphs)

DROP是由加州大學和北京大學等研究機構共同開發(fā)的英文閱讀理解基準數(shù)據(jù)集。此數(shù)據(jù)集的設計目標是推動閱讀理解技術超越傳統(tǒng)的文本處理,更深入地分析文本段落。系統(tǒng)需要在理解段落內容的基礎上,進行如加法、計數(shù)和排序等離散推理操作,這些操作要求比之前的數(shù)據(jù)集更深層次的文本理解。

為了創(chuàng)建DROP數(shù)據(jù)集,研究者們采用了眾包方法,首先自動選取Wikipedia中含有大量數(shù)字的敘事性段落,隨后利用Amazon Mechanical Turk平臺來收集問題及其對應的答案。在構建問題時,研究者們使用了具有對抗性的基線系統(tǒng)BiDAF作為參考,激勵眾包工作者提出難以被基線系統(tǒng)回答的問題。最終形成的數(shù)據(jù)集包含了96,567個問題,覆蓋了Wikipedia上的眾多主題,尤其是體育比賽摘要和歷史段落,對閱讀理解技術的深入性和廣泛性提出了新的挑戰(zhàn)。

8)BIG-Bench Hard (Broad Impact General Benchmark Hard)

BIG-Bench是由Google、OpenAl等研究者共同開發(fā),旨在通過一系列多樣化的任務來全面評估大語言模型的性能。BIG-Bench包含了超過200個任務,這些任務涵蓋了文本理解、推理、邏輯推理、數(shù)學推理和常識推理等多個領域。任務類型包括機器翻譯、文本分類、序列標注、抽取式摘要、信息檢索、表格解讀、數(shù)理推理、常識推理、多模態(tài)推理、規(guī)劃和數(shù)學問題解答等。

而BBH則是在BIG-Bench數(shù)據(jù)集的一個子集,專注于23個最具有挑戰(zhàn)性的任務,這些任務超出了當前語言模型的能力范圍。BBH中的任務需要進行多步驟推理。

9)MMMU(Massive Multi-discipline Multi-modal Understanding & Reasoning)

MMMU是一個為大學級多學科多模態(tài)理解和推理設計的綜合測試基準。它的問題來源于大學考試、測驗和教科書,涵蓋六個常見學科:藝術與設計、商業(yè)、科學、健康與醫(yī)學、人文與社會科學以及技術與工程。MMMU由11.5K個精心選擇的多模式問題組成,涵蓋30個不同科目和183個子領域,從而達到廣度目標。此外,MMMU中的許多問題需要專家級的推理,例如應用“傅立葉變換”或“平衡理論”來推導解,從而達到深度目標。

MMMU還提出了當前基準測試中沒有的兩個獨特挑戰(zhàn)。首先,它涵蓋了各種圖像格式,從照片和繪畫等視覺場景到圖表和表格,測試了LMM的感知能力。其次,MMMU具有交錯文本圖像輸入的特征。模型需要共同理解圖像和文本,這通常需要回憶深刻的主題知識,并根據(jù)理解知識進行復雜的推理以達成解決方案。

MMMU包含11.5K個多模式問題,涵蓋六個廣泛的學科、30個科目和183個子領域,每個學科的MMMU樣本。這些問題和圖像需要專家級的知識來理解和推理。

MMMU作為評估LMM(多模態(tài)大模型)能力的基準的開發(fā)標志著邁向AGI之旅中的一個重要里程碑。MMMU不僅測試了當前LMM在基本感知技能方面所能達到的極限,還評估了它們處理復雜推理和深入的特定主題知識的能力。這種方法直接有助于我們理解專家AGI的進展,因為它反映了不同專業(yè)領域的熟練成年人所期望的專業(yè)知識和推理能力。

盡管MMMU具有全面性,但與任何基準一樣,它也并非沒有局限性。人工測試過程雖然徹底,但可能存在偏見。同時,對大學水平科目的關注可能也不是對AGI的充分測試和評估。然而MMMU會激勵AI社區(qū)建立更多,更全面的面向專家通用人工智能的下一代多模式基準模型。

2. 主流大模型測試結果(Claude3、GPT-4、Gemini)

目前主流大模型的發(fā)布都會以一系列評估工具和數(shù)據(jù)集作為測試基準,并公開有利于自己的測試成績。下圖是Anthropic公司發(fā)布的Claude3系列的最新測試報告。

在以上這份測試報告中,展示了包括Claude 3系列模型(Opus、Sonnet、Haiku),GPT系列模型(GPT-4、GPT-3.5),Gemini系列模型(1.0Ultra、1.5Pro、1.0Pro)在內的多個人工智能大模型在不同測試基準任務上的成績。

在MMLU測試中,Claude 3 Opus以86.8%的成績表現(xiàn)最佳,與GPT4在一個水平,其次是Gemini 1.0Ultra。在5-shot和0-shot的Chain of Thought (CoT)解題推理鏈中,由于GPT和Gemini系列沒有測試,無法比較。但Claude 3 Opus以88.2%的正確率顯示其在一般推理能力方面的強大。

在MATH能力方面,Claude 3 Opus在0-shot條件下得到61%的準確率,超過其他所有模型。在經(jīng)過少量示例(4-shot)學習后,Opus的表現(xiàn)也是所有模型中最好的。

在小學和初中數(shù)學(GSM8K)測試中,Opus同樣位居榜首,準確率達到95.0%,顯示其在數(shù)學問題解決方面有卓越的能力。此外,Opus在多語言數(shù)學測試(MGSM)中也展示了其強大的多語言能力。

在Python編碼任務(HumanEval)中,Opus的成績?yōu)?4.9%,這表明了其在理解和生成代碼方面的能力。

在研究生水平的問題和回答(GPQA)測試中,Opus的5-shot CoT得分是50.4%,明顯高于其他所有模型,表明其在高級推理能力方面的優(yōu)勢。

在多語言數(shù)學(MGSM)測試中,Opus的成績是90.7%,進一步證實了其在多語言處理和數(shù)學問題解決上的能力。

在閱讀理解和算術(DROP)測試中,Opus得分為83.1,再次領先。

最后,在混合評估的BIG-Bench-Hard測試中,Opus的表現(xiàn)同樣是最好的。

總體而言,測試結果顯示Claude 3系列中的Opus模型在各項任務上均表現(xiàn)優(yōu)異,尤其是在高級推理和數(shù)學問題解決方面,其性能超越了GPT-3及Gemini系列。這些結果揭示了Opus在多方面任務的應用潛力,尤其是在需要復雜推理和深度理解的場景中。

當然,由于Claude 3系列的測試報告是在GPT-3及Gemini系列之后發(fā)布,同時,也并非是第三方測試,而各商業(yè)大模型都會選擇有利于自己的評價方法和數(shù)據(jù)集,其測試公正性有待商榷。同時,以人類答題水平作為比對基準的這種“小鎮(zhèn)做題家”式的測試,本質上離AGI還有相當大的距離。

3. 主流大模型MMMU測試結果

由于常規(guī)大模型在單模態(tài)和單一測試數(shù)據(jù)集的表現(xiàn)并不能充分表現(xiàn)其在AGI方面的真實水平。因此,IN.AI Research,滑鐵盧大學,俄亥俄州立大學,獨立大學,卡內基梅隆大學,維多利亞大學,普林斯頓大學等研究機構聯(lián)合發(fā)布了MMMU測試數(shù)據(jù)集與主流多模態(tài)大模型的測試結果。

從該測試報告來看,即使是先進的GPT-4V和Gemini Ultra商業(yè)大模型也只能分別達到56%和59%的準確率,這表明大模型在大規(guī)模多學科多模式理解與推理上的還有很大的改進空間。

四、目前大模型的局限與缺陷

1. 理解和推理的限制

大模型生成的回答可能看起來合理,但它并不真正“理解”內容。它基于模式識別生成文本,這可能導致理解上的誤差或邏輯上的錯誤,尤其是在處理復雜的推理或需要深入專業(yè)知識的主題時。而人類在知識理解中更多的是靠文字、圖像、聽覺、嗅覺、觸覺等多感官系統(tǒng)相互映射、推理、驗證和聯(lián)想,并非只依靠單模態(tài)的理解。

2. 數(shù)據(jù)偏差和不準確性

大模型的回答質量和準確性完全依賴于其前期訓練數(shù)據(jù),如果訓練數(shù)據(jù)存在偏見或錯誤,其生成的內容也可能反映這些偏見或包含錯誤信息。雖然,人類的思維也依靠自身成長過程的信息處理和訓練,但人類思維訓練的成果并非是靜態(tài)的知識積累,而是建立了一套動態(tài)的思維和理解模式。這也是人類可以快速準確的處理新知識,并能準確糾正認知錯誤的關鍵。

3. 創(chuàng)造性和新穎性的限制

雖然大模型可以生成新穎的文本內容,但它的“創(chuàng)造性”受限于其訓練數(shù)據(jù)范圍內的模式組合。其產(chǎn)生的“新穎性”更多是依靠回歸模型中的文字組合預測,其并不能超出訓練數(shù)據(jù)的語意范圍。這也是大模型生成的文章更有明顯的成文范式和普適性,會讓人初讀驚艷、細讀乏味。大模型的文字創(chuàng)造力更像百科全書的知識集合,而對專業(yè)領域的創(chuàng)造力由于訓練數(shù)據(jù)的缺失,也無法實現(xiàn)更有成效的語言創(chuàng)造。

4. 情境和上下文的理解

盡管大模型能處理一定的上下文信息,但它在理解復雜或長期的上下文方面表現(xiàn)不佳。它難以跟蹤長對話中的線索或維持長篇文章的連貫性。例如在長對話中,大模型可能會逐漸失去對早期提到的信息的跟蹤。

這是因為大模型記憶機制有限,不能像人類那樣靈活地回顧和引用過去的討論內容;在生成長篇文章時,保持主題一致性和邏輯連貫性可能是一個挑戰(zhàn)。大模型可能在文章較長時開始重復或偏離主題;對于需要深度推理或廣泛背景知識的復雜問題,大模型可能無法完全理解所有的細節(jié)和潛在聯(lián)系,特別是在需要綜合多方面知識的情況下。

5. 無法自主學習和適應

當前的大模型并不能主動學習或適應新信息,它的知識僅限于訓練數(shù)據(jù)截止時的狀態(tài)。這意味著大模型無法自行更新或改變已經(jīng)學習或訓練完成的成果。如果出現(xiàn)新的事實、發(fā)現(xiàn)或文化變化,除非通過新的訓練數(shù)據(jù)更新模型,否則無法反映這些變化。

這種設計的目的是能確保輸出的一致性和可預測性,同時防止模型從不可靠的數(shù)據(jù)源學習和輸出無法預測的信息。但正是這種設計的局限性限制了大模型向人類一樣的學習和思考。

五、結論

目前,在科學界和產(chǎn)業(yè)界中,關于何時能實現(xiàn)人工通用智能(AGI)的預測存在顯著差異,這反映了不同人士對未來AI技術進展的不同觀點和期望。

一些科技企業(yè)領袖和AI研究者對AGI的到來持樂觀態(tài)度。例如,DeepMind的創(chuàng)始人Demis Hassabis認為,在未來十年內實現(xiàn)AGI是有可能的。而OpenAI的首席執(zhí)行官Sam Altman,更是預測AGI可能在大約五年內成為現(xiàn)實。多位AI研究者和思想家,包括Geoffrey Hinton和Ray Kurzweil,預測AGI將在未來幾十年內到來,具體時間從5年到20年不等。

在更廣泛的科學研究社區(qū)中,預測的時間則更為保守。一項由Muller和Bostrom進行的調查顯示,參與者普遍認為到2040年有50%的可能性實現(xiàn)AGI,到2075年則有90%的可能性。這項調查還表明,大多數(shù)專家預計在AGI實現(xiàn)后的30年內,超級智能(大大超過人類智能的AI)的出現(xiàn)概率為75%。近期在Linux 基金會主辦的北美開源峰會上Linux創(chuàng)始人Linus Torvalds則表達了對目前AI炒作的懷疑態(tài)度,并建議等待十年再評估AI的實際發(fā)展情況。

Yann LeCun認為,目前依賴于大規(guī)模數(shù)據(jù)和強化學習的人工智能模型,如GPT和其他大型語言模型,不太可能實現(xiàn)真正的普適人工智能。LeCun更傾向于開發(fā)能夠理解和推理的AI系統(tǒng),類似于人類和動物的方式。他提出了一種新的架構,即“聯(lián)合嵌入預測架構”(JEPA),旨在通過自監(jiān)督學習來訓練模型,使其能夠生成和理解高層次的抽象表示。

LeCun特別強調了通過訓練AI系統(tǒng)理解世界的模型(世界模型),該模型能夠預測并作出決策,而不僅僅是響應外部輸入。這種方法的目標是創(chuàng)建一個能夠理解環(huán)境并據(jù)此行動的AI,從而更接近人類的思維方式。強化學習之父Richard Sutton教授更看好Yann LeCun的世界模型理念,并將其視為實現(xiàn)AGI的關鍵途徑。

而筆者認為,依靠海量數(shù)據(jù)擬合回歸訓練的AI大模型與人類進化形成的認知推理有本質上的差異。當前的大模型是將海量的人類歷史認知成果,擬合為一套普適認知模型。數(shù)據(jù)擬合過程必然忽略掉差異性,而更傾向于普適性和過度擬合。

“小鎮(zhèn)做題家”式的大模型競賽并不能為人類進步提供實際幫助,而人類的進化與文明發(fā)展恰恰是依靠少量偶發(fā)認知差異性實現(xiàn)的。第一只下樹和站立的古猿,第一個走出非洲、使用火、使用工具的古人類,和為人類科技進步前仆后繼獻出生命的里程碑人物,無不是人類歷史長河中的異類,如果通過擬合共性而忽視個性,大模型的知識推理必然陷入認知陷阱。

因此,我們需要更加理性地看待AGI的發(fā)展,警惕泡沫化風險,未來AGI發(fā)展應該朝著數(shù)據(jù)分散、模型多元、推理協(xié)同、認知共享的方向發(fā)展,保留認知推理中的個性才能促進AGI技術的健康和可持續(xù)發(fā)展。

參考文獻

  • Team G, Anil R, Borgeaud S, et al. Gemini: a family of highly capable multimodal models[J]. arXiv preprint arXiv:2312.11805, 2023.
  • Assran M, Duval Q, Misra I, et al. Self-supervised learning from images with a joint-embedding predictive architecture[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15619-15629.
  • Hinton G. How to represent part-whole hierarchies in a neural network[J]. Neural Computation, 2023, 35(3): 413-452.
  • Yue X, Ni Y, Zhang K, et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi[J]. arXiv preprint arXiv:2311.16502, 2023.

專欄作家

黃銳,人人都是產(chǎn)品經(jīng)理專欄作家。高級系統(tǒng)架構設計師、資深產(chǎn)品經(jīng)理、多家大型互聯(lián)網(wǎng)公司顧問,金融機構、高??妥芯繂T。主要關注新零售、工業(yè)互聯(lián)網(wǎng)、金融科技和區(qū)塊鏈行業(yè)應用版塊,擅長產(chǎn)品或系統(tǒng)整體性設計和規(guī)劃。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!