大語言模型科普:涌現(xiàn)
提到大語言模型,大家都能夠聯(lián)想到一個突出能力,那就是涌現(xiàn)能力。那么涌現(xiàn)能力是什么?我們該如何理解涌現(xiàn)?本文針對該現(xiàn)象展開分析,為你科普大語言模型的涌現(xiàn),希望對你有所幫助。
我喜歡簡單的快樂,那是復(fù)雜最后的避難所?!獖W斯卡·懷爾德
提到大語言模型,經(jīng)常會聽到其一個突出的能力:涌現(xiàn)能力。那么涌現(xiàn)能力是什么呢?想要深入了解涌現(xiàn)能力的讀者,建議仔細閱讀此文。
我們先來看一下涌現(xiàn)的定義:
一個系統(tǒng)所表現(xiàn)出來的特性與它的組成個體簡單相加所表現(xiàn)出的特性存在很大不同,這一整體的系統(tǒng)行為被稱作“涌現(xiàn)行為”。
提取定義中的關(guān)鍵字:系統(tǒng)、個體、特性、簡單相加、不同。
單看定義,涌現(xiàn)的含義似乎仍如霧里看花,看得不是那么真切。也有人套用“量變引起質(zhì)變”解釋涌現(xiàn)能力。道理上講沒錯,但是對于清晰理解涌現(xiàn)似乎幫助也不大。
涌現(xiàn)是復(fù)雜科學(xué)中一個非常重要的概念。根據(jù)筆者的了解到的情況,只能非常抱歉地告訴各位:以人類目前的知識和認(rèn)知水平,還無法定量解釋涌現(xiàn)現(xiàn)象。
復(fù)雜科學(xué)本身就太復(fù)雜了(不然為什么叫復(fù)雜科學(xué)呢),而且涌現(xiàn)現(xiàn)象也太常見了,信息科學(xué)、神經(jīng)學(xué)、生態(tài)學(xué)、經(jīng)濟學(xué)、社會學(xué)等各個研究領(lǐng)域都存在大量的涌現(xiàn)現(xiàn)象。
那么該怎么理解涌現(xiàn)呢?
既然不能定量分析,那咱們就只能定性分析。演繹法行不通,咱們就嘗試歸納法。
一、蜂群的涌現(xiàn)行為
蜜蜂是一種神經(jīng)系統(tǒng)非常簡單的生物。
著名的動物學(xué)教授、諾貝爾獎得主弗里施教授發(fā)現(xiàn):蜜蜂可以通過一種叫“八字舞”的舞蹈來相互交流信息。當(dāng)一只小蜜蜂在外面發(fā)現(xiàn)食物,例如一大片開得正盛的花海,它會興奮地飛回蜂巢,給同伴們表演一段熱情洋溢的舞蹈。這段舞蹈的飛行路徑就像阿拉伯?dāng)?shù)字“8”那樣,包含一個來回?fù)u擺和一個回頭的動作。通過舞蹈的長度和頻率,蜜蜂能精確地告訴同伴食物的具體位置和距離。舉例來說,它搖起臀部的時間越長,代表食物距離就越遠。
更神奇的是,其他蜜蜂看到這段舞蹈之后,就能解碼出信息,然后按照提供的地址找到那片花海盛宴。這就是大自然的奇妙算法:每只蜜蜂的智力或許不高,但通過這種特定的交流方式,整個蜂群就能發(fā)揮出強大的“集體智慧”。
蜜蜂不僅會跳舞,還有一手避暑御寒的本事。蜜蜂要繁衍下一代,就必須在狹小的蜂巢里維持一個適宜的溫度。當(dāng)蜂巢太冷的時候,蜜蜂們會緊緊擠在一起,瘋狂振翅以增加溫度。當(dāng)蜂巢太熱的時候,蜜蜂們則會散開,扇動翅膀給蜂巢降溫。
有意思的是,每只蜜蜂開始升溫或降溫翅膀的溫度臨界點,取決于它們的遺傳特征。也就是說,那些基因相近的蜜蜂,會在溫度低于某個點時覺得冷,聚集在一起“抱團取暖”。同樣,當(dāng)溫度高于這個點時,它們也會因為“熱得慌”而散開,扇動翅膀給蜂巢降溫。
要理解這種現(xiàn)象,我們不能簡單地把蜜蜂群看成一群個體。實際上,蜜蜂群是一個復(fù)雜的系統(tǒng),每只蜜蜂都扮演著系統(tǒng)維持穩(wěn)定的重要角色。雖然每只蜜蜂的行為都有差異,但通過相互協(xié)調(diào),它們最終達成了群體目標(biāo)——維持蜂巢的溫度在最適宜的范圍內(nèi)。
這種自組織的集體智慧實在太神奇了?!耙恢鄯淠睦锏謸醯昧撕L(fēng)”,但當(dāng)蜜蜂聚集在一起就足以抵擋氣溫變化帶來的威脅。
二、蟻群的涌現(xiàn)行為
自然界中還有另外一種個體非常簡單,但是群體能力非常強大的生物——螞蟻。
螞蟻,雖然個體行為看起來純粹反射性地被外界條件所驅(qū)動,即幾乎完全是被外界環(huán)境驅(qū)使的。但這并不代表它們就是簡單的“行動機器”。實際上,螞蟻的大部分行為都可以用幾條簡單規(guī)則來描述。例如:
- 用大顎緊緊夾住目標(biāo)物;
- 沿著信息素的濃度上升或下降方向行進(信息素是螞蟻用來編碼信息的氣味,比如“這條路有食物”或“這條路要打仗”);
- 死去的螞蟻會分泌一種激素,螞蟻會通過氣味判斷同伴是否活著。
一旦螞蟻遇到這些規(guī)則未涵蓋的新環(huán)境,它們會處在極大危險中。在規(guī)則之外的環(huán)境里,大多數(shù)螞蟻,特別是工蟻,很難存活超過幾個星期。
不過,正是依靠這幾條簡單的行為規(guī)則,螞蟻群體發(fā)揮出驚人的智慧。每只螞蟻都像是一個微觀的決策單元,它們相互協(xié)調(diào)、相互配合,最終匯聚成一個高效的整體。能完成非常復(fù)雜的任務(wù),比如建造龐大的蟻穴、合作捕獵等。一個蟻群中各個成員的行為及其相互作用決定了整個蟻群的行為。然而作為一個群體,蟻群所顯示出的靈活性卻大大地超過了其個體成員的能力范圍。蟻群可以感知并應(yīng)對在很大地理范圍內(nèi)出現(xiàn)的食物、外敵、水患和很多其他現(xiàn)象。蟻群能夠把領(lǐng)地延伸到很遠的地方,按照有利于群體的方式來改變周圍環(huán)境。蟻群的壽命一般要比其個體成員的壽命長幾個數(shù)量級。
這種簡單規(guī)則帶來的集體智慧,讓螞蟻這種體型微小的昆蟲,成為了地球上最成功的社會物種之一。它們靈活運用基本規(guī)則應(yīng)對環(huán)境的變化,在漫長的演化歷程中不斷進化,最終在地球上得以廣泛的繁衍生息。
單看每一個蜜蜂/螞蟻個體,分析其身體結(jié)構(gòu)和行為,我們絕對無法想象蜂群/蟻群能夠具備上述那般復(fù)雜的群體行為。即蜂群/蟻群出現(xiàn)了與蜜蜂/螞蟻個體簡單相加無法得到的集體智慧,這種集體智慧就是一種涌現(xiàn)能力。
生命游戲的涌現(xiàn)行為:
康韋(Conway)的生命游戲:在該游戲中,系統(tǒng)在兩維網(wǎng)格中以步調(diào)一致的方式運轉(zhuǎn),其中每個細胞要么是死的要么就是活的。其規(guī)則如下:
- 剛好具有三個“活”鄰居的“死”細胞將被“復(fù)活”,在下一個階段變成一個有活力的細胞,否則的話,它仍然是死的。
- 擁有兩到三個生動活潑鄰居的活細胞能“存活”到下一個階段;否則,它就會消失(要么出于“孤單”,要么由于“過度擁擠”)。
總體來說,該系統(tǒng)中一個擁有中間數(shù)量(鄰居生命)的生命將得以延續(xù)(一個正向反饋),然而過多或過少的鄰居生命將導(dǎo)致死亡(一個負(fù)向反饋)。
通過上述的簡單規(guī)則,在不同的初始狀態(tài)下,能夠?qū)a(chǎn)生一系列在時空上都顯著的全局模式,這些全局模式由一系列簡單的微觀規(guī)則所涌現(xiàn)。
比如:生命游戲中的一個滑翔機是一個貫穿于整個空間的活細胞的布局配置。在每一個連續(xù)的時間步長(從左到右),一系列活細胞基于簡單的、局部的游戲規(guī)則而改變。在四個時間步長以后,重新出現(xiàn)了活細胞的初始配置,僅僅向右下移動了一個細胞的位置。如果左邊部分沒有受到干擾,該結(jié)構(gòu)就會繼續(xù)“滑翔”穿越整個空間。
還有更多神奇的生命游戲模式,感興趣的讀者不妨自行搜索,感受一下生命游戲“涌現(xiàn)”出的魅力。
三、簡單的涌現(xiàn)行為探索
我們還可以設(shè)定一些更簡單的規(guī)則,方便我們觀察涌現(xiàn)行為。
8.1表是這樣一個映射:將每個可能的輸入狀態(tài)映射到某個輸出狀態(tài)。這個規(guī)則表的第一行(狀態(tài)0)規(guī)定,如果一個主體及其兩個鄰居在上一次采取的行動都是0,那么該主體在下一個時期也將采取行動0。下一行(狀態(tài)1)表明如果目標(biāo)主體和它左邊的鄰居上一次采取的行動是0,右邊的鄰居采取的行動是1,那么該主體將采取行動1,等等。
取20個以環(huán)形前后相鄰的數(shù)字,即將20個數(shù)字首尾相連,這樣每個數(shù)字左右都有一個鄰居,可以根據(jù)鄰居和自己當(dāng)前的狀態(tài)決定下一個狀態(tài)。
這個簡單規(guī)則導(dǎo)致了一些有趣的系統(tǒng)行為。正如可從表8.2看到的,在整個圖表中涌現(xiàn)出了“由0組成的向下的三角形”這種一致的宏觀結(jié)構(gòu)。這些三角形態(tài)的規(guī)模遠遠超出了行為規(guī)則的規(guī)模。因此,即使個體行為只是基于從三個位置上所觀察到的行動而決定,涌現(xiàn)出來的一致的三角形結(jié)構(gòu)所包含的位置卻遠多于三個(例如,在時間步12開始形成的一個三角形,它的底邊跨越了20個位置中的13個)。
這不由得讓人想到了亞當(dāng)·斯密的看不見的手,系統(tǒng)中主體的行動就好像正被某種看不見的力量協(xié)調(diào)著一樣,創(chuàng)造出超出任何個體意圖的模式。
四、語言模型的涌現(xiàn)
大型語言模型的發(fā)展歷程并不完全一帆風(fēng)順。
回顧深度學(xué)習(xí)發(fā)展的前10年,模型的性能提高主要依賴于網(wǎng)絡(luò)結(jié)構(gòu)的變革。由于“模型尺寸呈指數(shù)增長,性能只會線性增加”的語言模型的縮放定律的現(xiàn)象,研究人員發(fā)現(xiàn),即便是最大的GPT-3模型,在有提示的情況下,其性能也不不如精心調(diào)教的小模型。同時超大的網(wǎng)絡(luò)規(guī)模極大增加訓(xùn)練所需數(shù)據(jù)量、訓(xùn)練和推理成本。
所以,當(dāng)時并沒有必要鋌而走險,投入大量資源去訓(xùn)練一個“龐然大物”。
然而,隨著神經(jīng)網(wǎng)絡(luò)設(shè)計技術(shù)的日臻成熟,要僅通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來獲得顯著性能提高已然困難重重。近年來,著計算機算力的提高和數(shù)據(jù)集規(guī)模的擴大,研究者開始把目光轉(zhuǎn)向模型規(guī)模的擴張。實驗結(jié)果顯示。
一旦模型大小達到某個“臨界質(zhì)量”,其性能提高將遠超比例關(guān)系,呈現(xiàn)出量變引發(fā)的質(zhì)變。簡而言之,當(dāng)模型的參數(shù)數(shù)量超過某個閾值,它會突然展現(xiàn)出遠超小模型的強大能力。這就催生了大規(guī)模預(yù)訓(xùn)練語言模型的蓬勃發(fā)展,尤其在自然語言處理領(lǐng)域。
大語言模型的參數(shù)規(guī)模有多快呢?我們不妨來看一下有網(wǎng)友統(tǒng)計的大語言模型的參數(shù)量。據(jù)說現(xiàn)在功能最強大的大語言模型GPT-4的參數(shù)規(guī)模已經(jīng)超過了萬億,短短4、5年的時間就增長了超100倍。
大語言模型為什么能力這么強大?本質(zhì)的原因在于超大規(guī)模的參數(shù)。每個神經(jīng)網(wǎng)絡(luò)單元都有簡單、可描述的運算規(guī)則,然而大量的神經(jīng)網(wǎng)絡(luò)單元連接在一起,就涌現(xiàn)出組成其的神經(jīng)網(wǎng)絡(luò)單元、層所不具備的能力。
那么為什么是語言模型的規(guī)模會出現(xiàn)暴漲,并且受到業(yè)內(nèi)乃至社會的廣泛關(guān)注呢?
筆者認(rèn)為原因之一如下:語言是人類最基本的符號系統(tǒng)之一。它是人們傳遞和交流信息的主要方式之一。語言不僅是人們交流的工具,還是人們認(rèn)知的基礎(chǔ)。語言推動認(rèn)知的發(fā)展和變化,影響人們對自身、社會和世界的看法和理解。語言可以使人們意識到自己認(rèn)知的差異,這種差異又反過來影響了語言本身的使用。
有許多研究都表明語言是人類理解世界的基礎(chǔ)。 例如,心理語言學(xué)家和神經(jīng)語言學(xué)家發(fā)現(xiàn),語言理解和產(chǎn)生的大腦機制涉及到一些基本的認(rèn)知過程和神經(jīng)網(wǎng)絡(luò)。這些過程和網(wǎng)絡(luò)在與語言無關(guān)的認(rèn)知任務(wù)中也會被使用,例如視覺感知和決策制定。此外,發(fā)展心理學(xué)家和認(rèn)知科學(xué)家也發(fā)現(xiàn),嬰幼兒通過語言來理解世界,而不會像成年人那樣依賴語言來思考和感知。
因此大語言模型是一種對人類認(rèn)知世界基礎(chǔ)方式的一種顛覆性技術(shù),受到廣泛關(guān)注和具備巨大的應(yīng)用前景也就不足為奇了。
總結(jié)
涌現(xiàn)無處不在,生物體、社群組織、科技、文化、文明等各領(lǐng)域涌現(xiàn)出的不可思議的特性,構(gòu)成了我們身邊的世界。
通過聰明、復(fù)雜的方式,根據(jù)十分簡單的原則,我們可以用電線將幾個簡單的模塊單元(電阻、電容、電感和晶體管)連接起來從而生產(chǎn)出擁有奇跡般強大力量、能夠以閃電般速度執(zhí)行困難任務(wù)的復(fù)雜產(chǎn)品——電子計算機。
在意識知覺的背后卻蘊含著涉及數(shù)十億神經(jīng)元的精致而復(fù)雜的大腦活動,當(dāng)這些活動持續(xù)半秒后意識才會涌現(xiàn)出來。意識是涌現(xiàn)系統(tǒng)現(xiàn)象,而不是大腦中的神經(jīng)通路和神經(jīng)元的總和所引發(fā)的后果。
基于信息科學(xué)和腦科學(xué)的大語言模型,涌現(xiàn)出了類人的智慧。同涌現(xiàn)現(xiàn)象一樣,以人類當(dāng)前的知識水平,難以解釋大語言模型的機理,然而仍然不妨礙我們觀察、總結(jié)、應(yīng)用大語言模型。就像雖然我們不懂腦子為什么能讓我們擁有智慧,我們?nèi)匀豢梢杂米约旱闹腔廴ソ鉀Q各種問題。
希望本文能對各位讀者理解大語言模型有所幫助,感謝閱讀!
專欄作家
一直產(chǎn)品汪,微信公眾號:apmdogy,人人都是產(chǎn)品經(jīng)理專欄作家。邏輯型產(chǎn)品經(jīng)理,致力于將科學(xué)思維與產(chǎn)品經(jīng)理方法論結(jié)合。關(guān)注人工智能、教育領(lǐng)域,擅長產(chǎn)品孵化、需求挖掘、項目管理、流程管理等產(chǎn)品技能。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!