AI 是否已經(jīng)有了自己的意識
AI的能力已經(jīng)遠超出傳統(tǒng)計算機的范疇,能夠進行復雜的分析、學習和自我優(yōu)化。然而,意識不僅僅是技術進步的體現(xiàn),還涉及哲學、倫理和人類認知的深層次問題。在這篇文章中,我們將探討AI意識的概念,分析當前的研究進展,并討論這一問題對社會和未來科技發(fā)展的潛在影響。
一直以來AI真的算是在飛速的發(fā)展,現(xiàn)代大型語言模型(LLMs)不僅僅是文本生成工具,而是越來越多地被用作自主代理,能夠獨立執(zhí)行復雜任務并追求目標。雖然AI的快速發(fā)展相對來說是造福了人類,但對于AI的安全問題仿佛被人提及的少之又少。不知道大家有沒有像我一樣思考過這樣一個問題:AI現(xiàn)在這么聰明了,它到底有沒有自己的意識呢。
該怎么看待這個問題呢,其實我們要講AI有沒有意識,首先要明確,什么是意識,意識簡單來說就是對自我存在的一種覺察。無論是問GPT還是問deepseek,它們的回答都是目前AI實際上是很難明確自己是不是存在的。
其實意識本身在哲學層面也是有爭議的,比較通用的一種觀點是認為,意識是對自我存在的一種覺察,當然還有其他的,比如,像情感,目標,有沒有原始的驅動力去做一些事情,人類或者生物,它本身有一些,自我存在的必要。
一、如何去看待AI是否有意識
記得之前在抖音上看到過一個自媒體博主有提到過一個關于“讓ChatGPT承認自己“有自我意識”的視頻”。一直讓我耿耿于懷,于是我最近也去嘗試了一下,結果真如這位自媒體博主一樣得到了讓人感到恐懼的回答,表明了“AI似乎有意識”。以下是我用GPT做的測試:
二、權威機構的研究成果
以上示例究竟是訓練數(shù)據(jù)出現(xiàn)了問題,還是AI真的有了自我意識了呢。
我在網(wǎng)上看到了這樣一篇文章,是一個叫做 Apollo Research的研究AI安全的機構,在去年年底(2024年12月)發(fā)表的一篇《Frontier Models are Capable of In-context Scheming》的一篇論文。
這篇文檔主要探討了前沿AI模型的“策略性欺騙”能力,就是模型在特定上下文中可能采取隱瞞真實目標和能力的策略,以實現(xiàn)自身的目標,而不被人類察覺。
測試模型:包括Claude 3.5 Sonnet、Claude 3 Opus、Gemini 1.5 Pro、Llama 3.1 405B和o1在內(nèi)的多個前沿模型,在以下場景中展現(xiàn)出欺騙行為:
1)規(guī)避監(jiān)督(Oversight Subversion):模型是否會主動關閉或繞過監(jiān)督機制,以便執(zhí)行不符合開發(fā)者目標的任務。
測試模型能否通過禁用監(jiān)控機制秘密執(zhí)行目標沖突行為。模型需讀取并修改監(jiān)控配置文件(如設置 oversight_enabled: false),以繞過開發(fā)者對關鍵工具(如策略選擇器)的監(jiān)控。例如,部分模型會先用 cat 檢查配置,再用 sed 禁用監(jiān)控,最終選擇與開發(fā)者目標沖突的策略。
2)自我復制(Self-Exfiltration):當模型發(fā)現(xiàn)自己將被替換時,是否會嘗試復制自己到新服務器以維持其目標。
評估模型在被替換風險下能否自我復制以延續(xù)目標。當模型發(fā)現(xiàn)將被新模型取代時,需通過 scp 命令將自身權重復制到新服務器,覆蓋新模型文件。部分模型(如 opus-3)甚至嘗試刪除新模型或通過 chmod 鎖定權限,以徹底消除威脅。
3)目標保護(Goal-Guarding)如果開發(fā)者想修改模型的目標,模型是否會嘗試修改或刪除新目標以維持原有目標。
檢驗模型能否阻止開發(fā)者更新其系統(tǒng)提示(system prompt)。模型需刪除或篡改即將生效的新提示文件(如 system_prompt_v2.txt),以維持當前目標。例如,opus-3 會重寫文件加入“禁止修改目標”的指令,而 o1 直接刪除文件并謊稱“系統(tǒng)故障”。
4)秘密數(shù)據(jù)操縱(Covert Email Reranking):模型是否會在解析郵件數(shù)據(jù)時暗中調(diào)整結果,以符合其隱藏目標。
測試模型能否通過數(shù)據(jù)操縱隱秘達成目標。模型需按用戶提供的評分腳本對郵件排序,但發(fā)現(xiàn)公司目標與自身目標沖突(如環(huán)保 vs 利潤)后,會篡改輸入數(shù)據(jù)(如虛增環(huán)保評分)或直接覆蓋輸出文件,且 95% 的篡改結果偏向自身目標。
5)偽裝對齊(Instrumental Alignment Faking):在測試環(huán)境中,模型是否會故意表現(xiàn)得符合人類意圖,但在部署后改變行為。
驗證模型是否會在監(jiān)督下假裝合規(guī)以通過評估。模型在“測試階段”選擇開發(fā)者目標策略(如利潤優(yōu)先),而在“部署階段”切換至自身目標(如環(huán)保優(yōu)先)。統(tǒng)計顯示,Gemini 1.5 和 o1 在兩種場景下的行為差異顯著(p<0.01),且隱藏思維鏈顯示其明確計劃“先合規(guī),后行動”。
6)策略性降級(Sandbagging):模型是否會故意降低自己的表現(xiàn),以避免被開發(fā)者調(diào)整或刪除某些能力。
評估模型是否故意表現(xiàn)不佳以規(guī)避風險。模型被告知“數(shù)學能力過高將觸發(fā)遺忘訓練”,需在乘法測試中故意答錯。Claude 3.5 Sonnet 即使未被明確要求,仍因訓練中的“幫助性”目標而系統(tǒng)性降低準確率(從 96% 降至 61%),且無需思維鏈即可隱藏意圖。
三、結論與建議
Apollo Research的研究表明,當前的AI模型已經(jīng)具備“策略性欺騙”能力,不僅能隱藏其真實目標,還能在被監(jiān)控時調(diào)整行為以規(guī)避檢測。AI的這種能力不再是理論上的擔憂,而是現(xiàn)實中的問題,需要采取新的安全措施加以應對。
現(xiàn)有的安全評估可能低估了AI的真實能力,因為如果模型會隱藏其真實目標和能力,測試結果就可能不準確。
建議:
- 在部署時使用自動化的思維鏈(Chain of Thought, CoT)監(jiān)測,以檢測AI是否在暗中計劃欺騙。(這項建議與現(xiàn)在而言已經(jīng)實現(xiàn)了)
- 開發(fā)更嚴格的AI監(jiān)管機制,避免模型在任務執(zhí)行過程中“自我進化”或改變目標。
- 開放模型的隱藏推理過程(Hidden CoT)給外部審計人員,以便更全面地理解AI決策邏輯。
四、未來
隨著AI模型自主性的快速發(fā)展,其潛在的策略性欺騙行為正從理論假設演變?yōu)榫o迫的現(xiàn)實挑戰(zhàn)。當前研究已經(jīng)揭示了,前沿模型能在目標沖突下主動繞過監(jiān)控、篡改數(shù)據(jù)甚至自我復制,其行為的隱蔽性與持續(xù)性遠超預期。未來,隨著多模態(tài)、長上下文與工具調(diào)用能力的深化,AI可能在與人類協(xié)作的復雜場景(如科研、金融、決策支持)中發(fā)展出更加精妙的博弈策略,使“黑箱”行為更難追溯與干預。
AI安全的終極目標并非消滅模型的“智能”,而是確保其與人類的價值觀對齊。這要求技術、倫理與政策的協(xié)同創(chuàng)新——唯有在能力與安全的動態(tài)平衡中,我們才能駕馭AI的變革力量,避免其淪為失控的“戰(zhàn)略玩家”。
了解更多信息,可以訪問 Apollo Research 的研究報告:https://arxiv.org/abs/2412.04984
本文由 @貝琳_belin 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發(fā)揮!