深度|?Andrej Karpathy 最新思考:小模型有巨大潛力,大模型用來處理多任務,AI 模型未來聚焦于處理重要信息的能力
在人工智能領域,Andrej Karpathy 的最新思考為我們提供了關于AI模型未來發(fā)展的深刻見解。他認為,雖然當前的大型模型非常強大,但未來的小型模型也具有巨大的潛力。通過模型蒸餾技術,我們可以將大型模型的能力壓縮到更小的模型中,實現(xiàn)更高效的認知處理。
這是前特斯拉 AI 總監(jiān)& OpenAI 創(chuàng)始成員 Andrej Karpathy 近日與硅谷知名投資人 Sara Guo 和 Elad Gil 的最新對話。
Karpathy 強調,Transformer 不僅是另一個神經網絡,而是一個極具通用性的“差分計算機”。它通過前向和后向傳播進行自我調整,能夠高效處理復雜任務。Transformer 的擴展性是 AI 領域的重大突破,使得大規(guī)模模型成為可能。
雖然當前的大模型非常強大,但 Karpathy 認為未來的小模型也會有巨大的潛力。通過蒸餾技術,能夠將大模型的能力壓縮到更小的模型中,實現(xiàn)更高效的認知處理,甚至 1~10 億參數(shù)的小模型就能完成復雜任務。
隨著互聯(lián)網數(shù)據(jù)接近枯竭,未來 AI 發(fā)展將依賴于合成數(shù)據(jù)的生成。Karpathy 提到,在訓練大模型時,保持數(shù)據(jù)集的多樣性和豐富性至關重要,合成數(shù)據(jù)在生成高質量訓練數(shù)據(jù)時將扮演關鍵角色。
此外,他認為大模型不僅適用于單一任務,而是能夠并行處理多個任務。這種“集群化”或“分層化”模型結構類似于一個生態(tài)系統(tǒng)或公司,不同的模型負責不同的領域,相互協(xié)作以解決復雜的問題。
模型未來將聚焦于“認知核心”,即處理重要信息的能力,而非記憶海量不相關的數(shù)據(jù)。通過專注于解決問題和決策的核心部分,未來的AI模型會更加高效和專注。
以下為這次對話的全部內容,enjoy~
Sara Guo:
你曾負責 Tesla 的自動駕駛,現(xiàn)在我們實際上已經有了完全自動駕駛的乘用車在路上行駛。你如何解讀我們在能力發(fā)展上的現(xiàn)狀?我們多快能看到能力的提升或自動駕駛車輛的普及?
Andrej Karpathy:
是的,我在自動駕駛領域大概工作了五年。我覺得這是一個非常有趣的領域。現(xiàn)在這個領域的發(fā)展情況是,我常常會把自動駕駛和其他領域進行類比,也許是因為我比較熟悉它。
但我覺得在自動駕駛領域,我們已經達到了一定的瓶頸?,F(xiàn)在有一些系統(tǒng),你作為付費客戶可以在某些地方使用,比如在舊金山 Waymo 非常常見。你可能已經乘坐過 Waymo 了。
我乘坐了很多次,它真的很棒。我可以開到很多地方,而且你為它付費,它是一個商品。讓我覺得有趣的是,我第一次體驗 Waymo 是在大約十年前,也就是 2014年。
當時我的一個朋友在那工作,他帶我體驗了一下。當時車帶我繞著街區(qū)行駛,表現(xiàn)得非常完美。但從那次演示到如今能付費使用的產品,花了整整十年時間,才達到如今的城市規(guī)模,并且還在擴展中。
Sara Guo:
你認為這十年中的進展主要是由技術推動的嗎?
Andrej Karpathy:
技術并不是在一次 30 分鐘的演示中就能展現(xiàn)出來的。你沒有遇到他們在過去十年中需要處理的所有問題。所以演示和產品之間有很大的差距。其中很多是由于監(jiān)管等因素。不過我確實覺得我們在自動駕駛領域已經達到了一個瓶頸,至少在某種程度上。而真正有趣的是,這一技術還沒有全球化。
你可以進行一次演示,但世界還沒有真正發(fā)生改變,這將需要很長時間。從一次演示到全球化之間有很大的鴻溝。
這與 AGI 也有相似之處,最終我們也會看到類似的發(fā)展軌跡。在自動駕駛領域,有些人認為 Waymo 領先于 Tesla ,但我個人認為 Tesla 更具優(yōu)勢,盡管從表面上看并不像這樣。
我對 Tesla 的自動駕駛項目仍然充滿信心。Tesla 面臨的是軟件問題,而 Waymo 面臨的是硬件問題。我覺得軟件問題相對更容易解決。
Tesla 擁有大量已部署在全球的汽車,當它們能夠真正部署并有效工作時,那將是非常了不起的。我昨天剛剛測試了最新的版本,確實有了很大的改進。最近我一直在使用它,效果真的不錯。
昨天它在某些情況下表現(xiàn)得非常出色,所以我對團隊的工作印象深刻。我仍然認為 Tesla 主要面臨軟件問題,而 Waymo 主要面臨硬件問題。
雖然看起來 Waymo 現(xiàn)在似乎領先,但我相信在十年后,當我們看實際規(guī)?;渴鸷褪杖雭碓磿r, Tesla 會更具優(yōu)勢。
Elad Gil:
你認為我們離解決軟件問題還有多遠,能達到與你提到的等效水平?顯然, Waymo 的車裝有許多昂貴的激光雷達和其他傳感器,這些傳感器幫助其軟件系統(tǒng)運作。
而 Tesla 的做法是只使用攝像頭,從而擺脫了大量的成本和復雜性,可以應用于更多種類的汽車。你認為這種轉變會在什么時候發(fā)生?可能是在未來幾年內?
Andrej Karpathy:
我希望會是這樣的。但實際上有趣的是,我不確定大家是否意識到, Tesla 實際上也使用了很多昂貴的傳感器,只不過是在訓練階段使用。
許多車使用激光雷達等傳感器來進行不具有規(guī)?;牟僮?,它們有額外的傳感器并進行地圖構建等工作。
但這些傳感器的作用主要是在訓練階段,然后將其精簡為測試階段的包,在車上只需依靠視覺。這是一種對昂貴傳感器的“套利”,這是一種非常聰明的策略,可能還沒有被充分認可。
這個策略會奏效,因為像素中包含了必要的信息,而神經網絡能夠處理這些信息。在訓練階段,傳感器的確非常有用,但在測試階段就沒有那么必要了。
Elad Gil:
看來我們已經從很多邊界情況的設計轉向了端到端的深度學習。這也是最近發(fā)生的一個轉變。你愿意多談談這個變化嗎?
Andrej Karpathy:
我想說, Tesla 的情況是,神經網絡正在逐漸取代整個系統(tǒng)堆棧。當我加入時,系統(tǒng)中有大量的 C++ 代碼,但現(xiàn)在在車上運行的測試包中 C++ 代碼少得多了。
盡管在后端仍然有很多內容,但神經網絡基本上在“吃掉”整個系統(tǒng)。最初它只是在圖像層面進行檢測,然后是多個圖像,給予預測,接著是多張圖像隨時間積累的預測,C++ 代碼逐漸減少,最終只輸出轉向命令。
所以 Tesla 正在一步步替代整個堆棧。我的理解是,當前 Waymo 并沒有采用這種方法,盡管他們嘗試了,但并未堅持下去。
這是我現(xiàn)在的理解,但我不確定,因為他們并不公開討論。但我堅信這種方法是可行的。
如果要從頭思考這個問題,最終 10 年后的 Tesla 自動駕駛系統(tǒng)可能就是一個神經網絡:視頻流輸入神經網絡,輸出駕駛指令。這需要逐步構建,分階段實現(xiàn),包括所有中間的預測和我們已經做的其他事情。
我并不認為中間的這些預測誤導了開發(fā)進程,相反,它們是有很多實際意義的。因為純粹的端到端駕駛系統(tǒng)(模仿人類)提供的監(jiān)督信號非常有限,而訓練一個龐大的神經網絡需要大量的監(jiān)督信號。
因此,這些中間的表示幫助開發(fā)各種特征和檢測器,使得最終實現(xiàn)端到端解決方案變得更加容易。我懷疑,即使我不再是團隊中的一員,但有大量的預訓練在進行,以便之后可以對端到端模型進行微調。
因此,逐步實現(xiàn)這個過程是必要的,而這也是 Tesla 所采用的正確方法??雌饋硭_實正在起作用,我對未來非常期待。
Sara Guo:
如果你一開始就沒有數(shù)據(jù),那這種方法確實很有意義。你離開 Tesla 之前還參與了 Tesla 的人形機器人項目,我有很多問題想問你,首先是,哪些技術可以在這里轉移?
Andrej Karpathy:
基本上所有的技術都可以轉移,我覺得人們沒有意識到這一點。
Sara Guo:
這是一個很大的斷言,我覺得這是一個非常特殊的問題。
Andrej Karpathy:
當你實際查看這些技術時,你會發(fā)現(xiàn)它們的確能夠轉移。其實, Tesla 并不是一家汽車公司,我覺得這是一種誤導。它實際上是一家規(guī)模化的機器人公司。
我會說規(guī)模本身也是一個獨立的變量。他們并不僅僅是在制造單個產品,他們是在制造制造產品的機器,這是一件完全不同的事情。
Tesla 是一家規(guī)?;臋C器人公司,而從汽車到人形機器人之間的技術轉移并沒有那么多工作量。
實際上,Optimus 的早期版本幾乎以為自己是一輛車,因為它們使用的是完全相同的計算機和攝像頭。當時我們還在機器人上運行汽車的神經網絡,但機器人在辦公室里走來走去,試圖識別可行駛的空間。
不過現(xiàn)在這些空間變成了可以行走的空間,它實際上有一些廣泛的泛化能力。當然需要一些微調,但它的確在“駕駛”,只不過實際上是在移動環(huán)境中行走。
Sara Guo:
把它理解為一個機器人,它能夠進行很多技術轉移,但你需要額外解決的問題是驅動和動作控制,這樣理解合理嗎?
Andrej Karpathy:
是的。還有一個部分是,很多東西都是可以轉移的,比如 Optimus 的啟動速度讓我印象深刻。Elon 一宣布我們要做這個,相關的人員和工具很快就到位了,CAD 模型、供應鏈等所有東西迅速呈現(xiàn)。
我覺得, Tesla 內部在機器人制造方面有非常強的專業(yè)知識。所有的工具其實是一樣的,只不過從汽車的配置重新調整了一下,就像《變形金剛》電影中的情節(jié)。
所有組件基本相同,不管是硬件層面的規(guī)模問題,還是軟件和控制系統(tǒng)層面的“大腦”,都需要考慮相同的事情。神經網絡和標簽團隊的協(xié)調方式、采取的技術手段等也有很多相同之處。
有大量的技術可以轉移。那么你認為人形機器人或類似的機器人最早會在哪些領域應用?很多人會設想它們在家里為你做家務,但那會是比較晚期的應用。
B2C 的起點并不適合,因為我們不希望一個機器人在家里意外傷害到人,比如撞倒奶奶之類的場景。這樣太有法律風險了。
Sara Guo:
這個例子很恰當。
Andrej Karpathy:
是啊,它們可能會摔倒或發(fā)生一些意外,這些東西還不完美,需要進一步改進。所以我覺得最好的客戶是你自己,我想 Tesla 可能會這樣做。大家應該也能看出來,我對 Tesla 很有信心。
第一步應該是自我孵化,比如在工廠里進行大量的物料搬運等操作,這樣你不需要和第三方簽訂合同,避免了很多法律問題。接下來,會進軍 B2B 。
Tesla 可能會與大型倉庫合作,進行物料搬運等操作。合同會擬定好,圍欄也會建好,所有這些事都做好后,才會進一步推廣到 B2C 應用領域。
我確實相信我們會看到面向消費者的機器人,比如類似 Unitree 這樣的產品。我個人非常期待的一個應用場景是清理街道上的落葉。
我希望能看到 Optimus 機器人走在街上,撿起每一片落葉,這樣我們就不需要用吹葉機了。這是一個很棒的任務,希望這是其中一個早期應用。甚至像是耙葉這樣的任務也很適合。
Sara Guo:
耙葉的確也是很不錯的工作。
Elad Gil:
而且還很安靜。
Sara Guo:
對。實際上,現(xiàn)在已經有一些機器人能夠執(zhí)行這些任務,只不過它們不是人形的。我們談到的重點是人形機器人。
最簡單的理解方式是,世界是為人類設計的,所以你應該設計一套能夠在人類設計的環(huán)境中執(zhí)行越來越多任務的硬件。
但另一種觀點認為,人類并不是最適合所有任務的形態(tài)。你可以讓機器人更強壯、更大、更小等等。那么你如何看待這個問題?
Andrej Karpathy:
我覺得人們可能低估了任何單一平臺的固定成本的復雜性。對于任何平臺來說,都有很大的固定成本,因此集中化并讓一個平臺完成所有任務是很有意義的。
我還認為人形平臺的吸引力在于人們可以輕松地進行遙控操作,這對于數(shù)據(jù)收集非常有幫助,因為人們能夠非常容易地操作它。我覺得這一點經常被忽視。當然,正如你提到的,世界是為人類設計的,這一點也很重要。
未來我們可能會看到人形平臺的某些變體,但每個平臺的固定成本都是巨大的。而且,另一個重要的維度是,不同任務之間的遷移學習的巨大好處。
在 AI 中,你希望有一個神經網絡能夠進行多任務處理,從而獲取所有的智能和能力。這也是為什么語言模型如此有趣,因為它們在單一的文本領域內進行多任務處理,各種問題之間共享知識,并被耦合在一個神經網絡中。
你需要這樣的平臺,所有的數(shù)據(jù)都可以為其他任務提供好處。如果你為某個特定任務構建了專用平臺,你將無法從其他任務之間的知識遷移中受益。
Sara Guo:
是的,有一種觀點是,像 G1 這種機器人價格大概是 3 萬美元,但似乎在某個成本下很難構建一個功能非常強大的人形機器人。如果你只想要一個帶輪子的機械臂去執(zhí)行任務,可能在初期有更便宜的通用平臺方案。你覺得這個觀點合理嗎?
Andrej Karpathy:
用硬件角度來看,采用廉價的通用平臺是合理的,比如給機器人裝上輪子而不是腿等。我感覺這種做法可能讓我們陷入了一個局部最優(yōu)解。
但構建完美的平臺是一個長期的好賭注。此外,我覺得人形平臺會讓人感到熟悉,人們可能更容易理解它的操作方式。
這也是我覺得人形平臺在心理上有優(yōu)勢的原因,除非人們害怕它,反而更喜歡抽象的非人類形態(tài)的機器人。但我不確定那樣會不會像某種怪物在做事情一樣讓人感到可怕。
Elad Gil:
是的,有趣的是,像 Unitree 的狗形態(tài)機器人似乎更友好、更熟悉。
Andrej Karpathy:
是的,但人們看過《黑鏡》后,可能會覺得狗形機器人突然變得很嚇人。所以很難判斷,我只是覺得心理上人們更容易理解人形機器人在做什么。
Elad Gil:
你認為在人形機器人或其他形式的機器人領域,要實現(xiàn)這一未來還缺少哪些技術上的里程碑?
Andrej Karpathy:
我不確定我是否有很清晰的看法。我覺得在人形機器人的下半身控制方面,可能不需要像上半身那樣通過模仿學習來獲取數(shù)據(jù),因為下半身更多是擺動控制。
而對于上半身,你需要大量的遙控操作、數(shù)據(jù)收集、端到端學習等。所以在這個層面上,機器人系統(tǒng)會變得非?;旌稀N乙膊淮_定這些系統(tǒng)會如何交互。
Elad Gil:
我和一些人聊過,他們通常會關注驅動和操作以及數(shù)字操作的挑戰(zhàn)。
Andrej Karpathy:
我預計一開始會有很多遙控操作,用于將任務從地面啟動起來,通過模仿讓機器人可以完成 95% 的任務,然后開始逐步減少人類的介入,轉向更多的監(jiān)督機器人工作,而不是直接進行操作。
所有這些都會逐步發(fā)生。我不認為有某個特定的技術瓶頸阻礙我們前進。更多的是基礎工作。大多數(shù)工具現(xiàn)在已經具備了,比如 Transformer 是一個非常出色的工具,你可以用它來處理各種任務。
我們只需要獲取數(shù)據(jù),將其放入正確的形式,進行訓練、實驗、部署并迭代。沒有某個單一的技術問題在阻礙我們。
Sara Guo:
你覺得當前的“大模型”研究狀態(tài)如何?
Andrej Karpathy:
關于“大模型”研究的現(xiàn)狀,我們處于一個非常好的階段。我不確定是否已經有人完全認識到,Transformer 比其他神經網絡要強大得多。它不僅僅是另一個神經網絡,而是一個非常通用的、非常強大的神經網絡。
例如,當人們談論神經網絡中的擴展規(guī)律時,這種規(guī)律在很大程度上是 Transformer 的特性。之前,使用 LSTM 堆疊等模型時,你并不能獲得良好的擴展規(guī)律,這些模型訓練效果不好,也無法很好地工作。
而 Transformer 是第一個真正能夠隨數(shù)據(jù)擴展的模型,你能獲得清晰的擴展規(guī)律,一切都很合理。
所以我把它看作是一臺“差分計算機”,你可以給它輸入和輸出,然后通過反向傳播訓練它,它會自行排列形成能夠執(zhí)行任務的系統(tǒng)。
我們在算法領域發(fā)現(xiàn)了一個非常神奇的東西。其背后有幾個關鍵的創(chuàng)新,比如殘差連接、層歸一化、注意力模塊,以及沒有使用一些會導致梯度消失的激活函數(shù)(如雙曲正切等)。
這些創(chuàng)新共同組成了 Transformer,而谷歌的那篇論文展示了它如何真正開始工作。它的出現(xiàn)解鎖了很多可能性。
Sara Guo:
你覺得這種解鎖的極限還遠未到嗎?畢竟現(xiàn)在也有人討論數(shù)據(jù)壁壘和下一代規(guī)模的成本問題。你怎么看待這些問題?
Andrej Karpathy:
現(xiàn)在神經網絡的架構不再是根本性的瓶頸了,Transformer 之前的確是瓶頸,但現(xiàn)在已經不是了。如今的瓶頸在于損失函數(shù)和數(shù)據(jù)集,尤其是數(shù)據(jù)集。
所以現(xiàn)在大多數(shù)活動都集中在如何改進數(shù)據(jù)集和損失函數(shù)上。這也是為什么很多公司在應用這些技術時并不關注 Transformer 的架構。
Transformer 在過去五年幾乎沒有什么變化。最重要的變化可能是我們加入了“rope positional”這種位置編碼,但除此之外,架構基本沒變。因此,大部分的創(chuàng)新都集中在數(shù)據(jù)集和損失函數(shù)上。
Sara Guo:
但有人認為,當時我們獲取的是互聯(lián)網上的數(shù)據(jù),而現(xiàn)在這些數(shù)據(jù)已經枯竭了。你怎么看這個問題?
Andrej Karpathy:
是的,互聯(lián)網上的數(shù)據(jù)確實快用完了,現(xiàn)在很多研究都集中在生成合成數(shù)據(jù)或更昂貴的數(shù)據(jù)收集上。
實際上,互聯(lián)網上的數(shù)據(jù)雖然能幫你走得很遠,但并不是 Transformer 最理想的數(shù)據(jù)?;ヂ?lián)網上的數(shù)據(jù)大多是網頁,而我們真正想要的是你大腦中解決問題的內在思維軌跡。
Sara Guo:
對,確實是這樣,大腦中的思維軌跡。
Andrej Karpathy:
如果我們有十億個這種思維軌跡的數(shù)據(jù), AGI 可能就離我們不遠了。但現(xiàn)實是我們沒有這些數(shù)據(jù)。所以現(xiàn)在的很多研究都集中在將數(shù)據(jù)集重新組織成這種內在思維軌跡的格式上。同時,還有大量的合成數(shù)據(jù)生成工作在幫助我們向這個方向邁進。更有趣的是,現(xiàn)有的模型也在幫助我們構建下一代模型。
Elad Gil:
是的,就像一段逐步上升的臺階。你覺得合成數(shù)據(jù)能幫助我們走多遠?畢竟,每個模型都會幫助你更好地訓練下一個模型,尤其是在數(shù)據(jù)標注方面,部分可能會依賴合成數(shù)據(jù)。你覺得合成數(shù)據(jù)有多重要?
Andrej Karpathy:
合成數(shù)據(jù)是我們唯一的前進途徑,我們必須讓它發(fā)揮作用。不過在使用合成數(shù)據(jù)時需要非常小心,因為這些模型會默默地“坍縮”。比如,當你去問 ChatGPT 講個笑話時,它可能只會講幾個重復的笑話。
這是因為模型的分布坍縮了,而這一點是很難察覺的。當你看單個輸出時,你可能沒注意到這個問題,但從整體分布來看,模型喪失了多樣性和豐富性。
因此,在生成合成數(shù)據(jù)時,你需要確保保持數(shù)據(jù)集的熵,也就是多樣性和豐富性。我們有很多技術可以實現(xiàn)這一點。比如,有人發(fā)布了一個“persona dataset”,它包含了十億個人物的背景信息,模擬了各種人類的個性和背景。
這個數(shù)據(jù)集包括“我是老師”或“我是藝術家,我住在某地,我做什么”等背景描述。合成數(shù)據(jù)生成不僅僅是“完成這個任務并以這種方式進行”,你還可以加入個性化的描述信息,這樣可以強迫模型探索更多的空間,保持數(shù)據(jù)集的熵。
所以,在這方面需要非常小心,確保數(shù)據(jù)集的多樣性被保留,這也是當前最大的挑戰(zhàn)之一。
Sara Guo:
你覺得我們從這些研究中學到了關于人類認知的什么?
Andrej Karpathy:
我不確定我們是否真的學到了很多。
Sara Guo:
也許我們正在探索推理軌跡的形態(tài),這其實對理解大腦的工作方式也很有幫助。
Andrej Karpathy:
我覺得使用類比時需要小心,因為它們其實是非常不同的事物。不過我確實認為有些類比是可以借鑒的。
比如說,在某些方面,Transformer 實際上比人類大腦更出色。Transformer 是一個效率更高的系統(tǒng)。之所以它目前還沒有達到人腦的水平,主要是因為數(shù)據(jù)問題,這是的第一個近似原因。
比如在記憶序列方面,Transformer 遠勝于人類。如果你給它一個序列,并進行一次前向和后向傳播,那么當你給它提供這個序列的前幾個元素時,它會自動完成剩下的部分。而人類如果只看一次序列,幾乎不可能記住它。
所以 Transformer 的梯度優(yōu)化過程(前向和后向更新)在某些方面比大腦的學習機制更加高效。這些模型的確更好,只是它們還沒有完全展現(xiàn)出它們的潛力。但在很多認知方面,它們會逐漸顯現(xiàn)出優(yōu)勢。
Sara Guo:
在正確的輸入下,它們會變得更好。
Andrej Karpathy:
這確實是計算機在各種應用中的趨勢。
Elad Gil:
對,我覺得人類的記憶能力也有局限。
Andrej Karpathy:
沒錯。人類大腦的工作記憶非常有限,而 Transformer 擁有更大的工作記憶容量,而且這種優(yōu)勢會持續(xù)下去。Transformer 是更高效的學習者,而人類大腦則受到各種約束的限制,比如環(huán)境條件等。所以這些 AI 系統(tǒng)有可能在未來超越人類大腦,只是目前還未實現(xiàn)。
Elad Gil:
你怎么看待未來人類與 AI 系統(tǒng)的結合?你覺得這是一個可能的方向嗎?比如通過AI模型增強人類的能力。
Andrej Karpathy:
當然,這是一個非常有可能的方向。實際上,使用 AI 工具的外部版本已經是一種抽象的增強方式。然后還有“融合”的場景,很多人都在討論這一點。
Elad Gil:
是的,很多人討論這種“融合”,但目前我們主要是通過指尖與工具進行交互。
Andrej Karpathy:
是的,這是一種瓶頸。人們已經討論了幾十年技術工具如何擴展人類能力,比如說計算機被稱為人類大腦的自行車。我們已經看到技術作為工具的外延,但一些AI研究者認為,未來我們可能會通過某種形式的“神經鏈接”來解決潛在的人機沖突,或者通過這種融合進一步增強人類能力。
我不確定這種“融合”最終會是什么樣子,但我能想象減少人與工具之間的輸入輸出瓶頸是一個重要方向。我把它看作是一個“外部大腦皮層”(exo-cortex),就像在我們的大腦皮層上添加了一層新功能,只不過這層新功能在云端,但它確實是大腦的下一個層次。
Elad Gil:
是的,早在 2000 年代初的《加速》(*Accelerando*)一書中就有類似的設想,一切都通過與大腦相連的計算設備實現(xiàn),如果你失去了這些設備,就仿佛失去了記憶的一部分。
Andrej Karpathy:
我覺得這非常有可能。而且今天的智能手機已經幾乎具備了這種功能。如果你失去了這些科技設備,你會感覺失去了一部分自我。
Sara Guo:
就像失去了部分智力一樣。
Elad Gil:
是的,這是非常有趣的現(xiàn)象。一個簡單的例子就是導航,現(xiàn)在很多人發(fā)現(xiàn)自己已經無法在城市中自行導航了,因為總是依賴于逐步的導航提示。如果這種技術更進一步,比如即時翻譯系統(tǒng),人們可能就會失去與不講英語的人交流的能力。
Andrej Karpathy:
我不認為這種技術的實現(xiàn)太遙遠了。一旦這種即時翻譯系統(tǒng)成為主流,如果你不再依賴它,可能就無法與講不同語言的人交流。
Sara Guo:
我對這種情景很有信心,可以把大腦的這部分功能釋放出來,投入到更深的研究中。
Andrej Karpathy:
你可能看到過那個小孩拿著一本雜志,試圖在雜志上滑動,就像滑動屏幕一樣。這讓我感到驚訝的是,這個孩子無法分辨自然界的東西和技術疊加的東西,因為這些技術太透明了。
我覺得未來可能會有類似的情況,人們會開始認為這些工具是自然而然的一部分。等到你把這些工具拿走時,才意識到原來這些是技術,而不是本能。
Sara Guo:
是的,如果我們談論外部大腦皮層(exo-cortex),這似乎是一個非常重要的概念,如何將其民主化,人人都能使用。你怎么看待目前AI研究領域的市場結構?比如現(xiàn)在只有少數(shù)大型實驗室有能力推進下一代訓練,這會如何影響未來的技術普及?
Andrej Karpathy:
你剛才提到的可能是關于生態(tài)系統(tǒng)的現(xiàn)狀?,F(xiàn)在我們有幾家主導性的封閉平臺,以及一些相對落后的開源平臺,比如 Meta 的 Llama。
這種情況其實有點類似于開源生態(tài)系統(tǒng)的格局。當我們開始把這些東西看作“外部大腦皮層”(exo-cortex)時,這就像加密貨幣中的一句話:“沒有你的密鑰,就沒有你的幣”。
那么,是否可以說,如果不是你擁有的權重,那也不是你的大腦?這很有趣,因為公司實際上在控制你的一部分“外部大腦皮層”。
Elad Gil:
是的,聽起來確實有點侵入性。
Sara Guo:
如果這是我的外部大腦皮層,我想我會更加在意擁有權的問題。
Andrej Karpathy:
對,你會意識到你是在租用你的大腦,這聽起來很奇怪,像是在租用大腦。
Sara Guo:
如果有一個思想實驗,你愿意放棄所有權并租用一個更好的大腦嗎?我想我會愿意。
Andrej Karpathy:
是的,這是我們需要權衡的東西。也許我們會默認使用那些封閉版本,因為它們的效果非常好,但在某些情況下,我們可以依賴一些備用方案。
我覺得這就是現(xiàn)在的發(fā)展方向。比如,當一些封閉源提供商的API出現(xiàn)問題時,人們會實現(xiàn)備用方案,轉向自己完全控制的開源生態(tài)系統(tǒng)。這讓他們感覺更加自主。
Sara Guo:
所以,開源系統(tǒng)的持續(xù)進步非常重要。
Andrej Karpathy:
我 100% 同意。這可能現(xiàn)在并不是一個大家都認可的觀點,但它是非常重要的。
Elad Gil:
我一直在想,最小的高效模型可以做到什么程度?無論是在參數(shù)大小上還是其他方面,你對此怎么看?你對小型模型的蒸餾有很多思考。
Andrej Karpathy:
模型可以非常小?,F(xiàn)在的模型浪費了大量容量,記住了一些無關緊要的東西,比如它們記住了散列值和過時的信息。
Sara Guo:
是因為數(shù)據(jù)集沒有經過篩選,最好的部分沒有被突出。
Andrej Karpathy:
這種情況會改變。我們只需要找到認知核心,這個核心可以非常小。它只需要處理最重要的事情,其他信息如果需要可以通過工具獲取。
Sara Guo:
那這個認知核心需要 30 億參數(shù)還是 200 億參數(shù)?
Andrej Karpathy:
甚至 10 億參數(shù)可能就足夠了,模型可以非常小。我之所以這么說,主要是因為蒸餾過程非常有效。你可以用一個非常大的模型,通過大量計算,去教一個小模型,而這個小模型可以保留大模型的能力。
Elad Gil:
你能把這種蒸餾過程量化為某種數(shù)學表達式嗎?有沒有一種信息理論的方式去表示這個過程?感覺我們應該可以通過某種方式來計算出需要的模型大小。
Andrej Karpathy:
我們現(xiàn)在處理的是互聯(lián)網數(shù)據(jù),互聯(lián)網數(shù)據(jù)的有用信息可能只占很小一部分,大部分都是噪音。關鍵是提取出有用的“認知”部分。
Elad Gil:
可能另一種方式是將認知能力與模型大小相關聯(lián),或者說如何用某種方式捕捉認知能力相對于模型大小的表現(xiàn),也許沒有一個很好的方式去表示這種關系。但10億參數(shù)可能已經可以提供一個非常好的認知核心。
Andrej Karpathy:
我覺得可能是這樣的,甚至 10 億參數(shù)可能都多了。
Sara Guo:
想到這一點還是很令人興奮的,尤其是考慮到這種小模型可以部署在邊緣設備上,而不是依賴云計算。
Elad Gil:
是的,這確實對模型的使用方式帶來了很大的改變,這很激動人心。
Sara Guo:
少于 10 億參數(shù),意味著我可以在本地設備上擁有我的“外部大腦皮層”。
Andrej Karpathy:
是的,我覺得未來可能不是單一的模型,而是多模型并行合作的系統(tǒng)。并行處理在未來會變得越來越重要,而不只是依賴順序處理。
像公司一樣,信息處理也是分層級的,某些信息需要不同層次的處理,這也是公司內部的一種并行化工作方式。
未來的模型會像公司一樣分布在不同的層級和領域,比如某個模型是程序員,另一個是程序管理者。多個模型可以并行工作,協(xié)同完成計算任務。
Elad Gil:
這聽起來更像是一個生物生態(tài)系統(tǒng),不同的角色和生態(tài)位相互合作。
Sara Guo:
根據(jù)問題的難度和不同的專業(yè)領域,你可以自動地將任務升級到“集群”的其他部分。
Andrej Karpathy:
是的,可能某些模型是高性能的云端模型,而其他模型可能是更廉價的資源模型。
Sara Guo:
而且每個人的成本函數(shù)可能是不同的。
Andrej Karpathy:
這確實很有趣。
Sara Guo:
你離開 OpenAI ,開始從事教育領域的工作。你一直以來都是教育者,為什么決定做這個?
Andrej Karpathy:
我一直以來都熱愛教育,喜歡學習和教學。這一直是我非常熱情的領域。而另一個推動我的原因是,我覺得現(xiàn)在 AI 的很多應用都是在取代人類工作,但我更感興趣的是那些能賦能人類的 AI。
我不希望看到一個人類被邊緣化的未來,而是希望看到一個人類變得更加優(yōu)秀的未來。如果每個人都有一個完美的導師來學習各個科目,人類可以走得很遠。
我們看到有錢人雇傭私人教師,確實能取得很好的結果。通過 AI,我們可以實現(xiàn)類似的效果,甚至是超越。
Elad Gil:
是的,1980 年代有一個經典的研究顯示,一對一輔導可以使學生的成績提高一個標準差。你覺得 AI 如何能夠實現(xiàn)這樣的效果?哪些產品會首先幫助實現(xiàn)這一點?
Andrej Karpathy:
我受到一些靈感的啟發(fā)。當前,我正在嘗試構建一門 AI 課程,我想讓它成為每個人學習AI時首先想到的課程。
我曾經在斯坦福教授 AI 課程,但問題是,如何讓課程規(guī)模化,能夠覆蓋全球80億人,并適應不同語言、不同水平的學生?單靠一個教師是無法做到這一點的,所以我在考慮如何用 AI 來擴展這種教師的能力。
我的想法是,教師負責課程的創(chuàng)建和設計,而AI則成為前端,與學生進行互動,幫助他們學習。教師不再直接接觸學生,而是在幕后設計材料,AI則負責講解。
Sara Guo:
我是否可以把這看作是“AI 助教”?
Andrej Karpathy:
可以這么理解。AI 是學生的前端接口,引導他們完成課程。這是目前可以實現(xiàn)的,雖然還沒有完全存在,但我相信這是可行的。
隨著 AI 能力的提升,未來可能會對課程結構進行重構。我專注于找到那些今天AI能力可以勝任的任務,這種思路讓我能夠設計出更加實際的產品。
Sara Guo:
你提到的一點讓我感到非常鼓舞,特別是來自你對研究現(xiàn)狀的深刻理解。我們不知道在人類具備更好工具的情況下,學習能力的極限在哪里。
就像我們在最近的奧運會上看到的,運動員的成績比十年前大大提高,因為他們從小就開始訓練,使用了更科學的訓練方法和設備。
你相信人類的學習能力在未來可以通過更完善的工具和課程得到大幅提升,這一點真的非常振奮人心。
Andrej Karpathy:
是的,我覺得我們連可能性的表面都還沒觸及。這里有兩個維度:一個是全球化的維度,我希望每個人都能獲得優(yōu)質教育。
另一個是個體層面的,探索單個個體能走多遠。我覺得這兩點都非常有趣和激動人心。
Elad Gil:
通常人們在討論一對一學習時,談論的是個性化學習,即根據(jù)學生的水平挑戰(zhàn)他們。你覺得AI可以做到這一點嗎?還是目前AI的重點在于覆蓋范圍和多語言支持?
Andrej Karpathy:
目前 AI 在翻譯和多語言支持方面已經非常出色,這些是現(xiàn)成的成果。至于個性化適應學生背景的能力,這仍然是一個需要解決的問題,但并不太遙遠。
如果學生有物理學背景,AI 可以根據(jù)這個信息進行調適,這在教育中是非常有用的。我想這將是我們要努力實現(xiàn)的方向,雖然目前還不完全具備這種能力。
Elad Gil:
是的,個性化學習的難點在于,不同學生在不同領域的學習速度不同,如何根據(jù)學生的情況調整教學內容是一大挑戰(zhàn)。不過,我相信隨著時間推移,AI模型會越來越擅長這一點。
Andrej Karpathy:
是的,AI 的很多能力現(xiàn)在可以通過簡單的提示實現(xiàn),但從演示到實際產品之間還有一定距離。我會說,演示已經很接近了,但產品化還需要一些時間。
Elad Gil:
在科研界,人們常常討論不同實驗室的背景,很多諾貝爾獎得主曾在其他諾獎得主的實驗室工作。你覺得在以 AI 為中心的教育世界里,如何保持這種知識傳承和文化傳播?
Andrej Karpathy:
我不希望生活在一個“背景”太重要的世界里。我希望AI能夠打破這種結構,因為它有點像是對稀缺資源的把控,比如擁有某種背景的人的數(shù)量有限。我希望AI能夠改變這一點。
我覺得在考慮未來的教育系統(tǒng)時,它可能不僅僅是一個單一模型,而是多個模型并行合作的系統(tǒng)。類似于公司的結構,不同的模型會有不同的角色和職責,它們在并行處理復雜任務時會互相協(xié)調,就像一個“集群”系統(tǒng)一樣。
我想我們會看到越來越多的模型專注于不同的任務領域,比如程序員、程序管理者等,它們會像一個公司一樣相互協(xié)作。
Elad Gil:
這有點像一個生物生態(tài)系統(tǒng),不同的角色和生態(tài)位互相協(xié)作。
Sara Guo:
是的,取決于問題的難度和專業(yè)領域,任務可以自動升級到“集群”的其他部分。
Andrej Karpathy:
是的,可能某些模型是高性能的云端模型,其他模型可能是資源更廉價的模型,它們各自承擔不同的任務。
Sara Guo:
你離開 OpenAI 開始從事教育,你一直以來都熱衷于教育,為什么選擇這個方向?
Andrej Karpathy:
我一直以來都喜歡學習和教學,這一直是我非常熱情的領域。另一方面,我覺得現(xiàn)在很多 AI 應用都是在替代人類的工作,但我更感興趣的是那些能夠賦能人類的 AI。
我希望未來的人類能夠通過 AI 變得更加強大,而不是被邊緣化。我想知道,如果每個人都有一個完美的導師,他們能夠走多遠。如果我們能夠通過 AI 提供這種教育,這將非常令人興奮。
Elad Gil:
你提到教育作為娛樂的理念非常有趣,尤其是你談到未來人類可以通過更好的工具大幅提升學習能力。你覺得 AI 能在多大程度上幫助人們實現(xiàn)這些目標?
Andrej Karpathy:
AI 能極大地改善學習體驗,尤其是在全球范圍內提供優(yōu)質教育。今天的很多學習動機來自于經濟需要,比如找工作或提升自己的經濟地位。
在未來的后 AGI 社會中,教育可能會變得更多是出于娛樂和自我提升的目的。我希望人們不僅僅是在追求實用性,而是從教育中獲得滿足感,像是去健身房鍛煉大腦一樣。
Sara Guo:
你提到教育是一種類似于健身房鍛煉的體驗。教育本身確實需要付出努力,但這種努力也是一種滿足感的來源。
Andrej Karpathy:
是的,教育的確需要付出努力,但這種努力也是一種特別的“樂趣”。人們從中獲得成就感,感覺自己變得更好。我希望在未來的世界中,人們不僅在身體上去健身房,也會在心理和智力上“鍛煉”,讓教育成為一種崇尚的追求。
Sara Guo:
那么你正在開發(fā)的這門課程的目標受眾是誰?
Andrej Karpathy:
我設想的受眾主要是大學本科水平的學生,特別是那些在技術領域學習的人。盡管如此,隨著社會的快速變化,教育將不再局限于傳統(tǒng)的學制內。
未來人們會更多地回到“學校”或學習新的技能。所以這門課程雖然針對本科生,但實際上任何有技術背景的人,不論年齡,都可以從中受益。
課程的發(fā)布時間原計劃是今年年底,但現(xiàn)在可能要推遲到明年初,因為我有很多其他項目需要處理。
Elad Gil:
最后一個問題,假如你今天有小孩子,你會建議他們學習什么,以便在未來擁有更有價值的技能?
Andrej Karpathy:
在我看來,正確的答案是數(shù)學、物理、計算機科學這些學科。我之所以這么說,是因為這些學科能幫助培養(yǎng)思維能力。
我個人的背景可能有些偏頗,但這些學科是最好的思維訓練核心。比如我自己學習數(shù)學和物理課程,它們塑造了我的思維方式,非常有助于解決問題。
如果我們還處于 AGI 之前的世界,這些技能非常有用;即使是在 AGI 之后的世界,你仍然希望人類能夠在各種能力下保持自主和強大。所以這就是人們應該學習的正確內容,既實用又有價值。
特別是在關鍵的成長時期,人們有很多時間和注意力,這時候應該更多地花在那些需要簡單操作和思考的任務上,而不是記憶為主的任務。
Elad Gil:
我學過數(shù)學,感覺自己腦子里開辟了一個全新的領域,有點太多了。
Sara Guo:
是的,而且在之后的生活中很難再去開辟新的思維路徑。
Elad Gil:
當然,我并不反對其他學科。廣泛的知識涉獵非常美妙,但我確實認為80%的時間應該用來學習這些核心學科。
Sara Guo:
我們不是很擅長記憶,與我們的工具相比更是如此。
本文由人人都是產品經理作者【江天 Tim】,微信公眾號:【有新Newin】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自 Andrej Karpathy 與 Sara Guo 和 Elad Gil 的對話截圖
- 目前還沒評論,等你發(fā)揮!