語言模型到底是什么?

0 評(píng)論 382 瀏覽 0 收藏 18 分鐘

對(duì)于大多數(shù)人來說,語言模型的概念非常抽象而難以理解。本文將從研究者的視角出發(fā),深入淺出地解釋語言模型的內(nèi)涵,幫你揭開語言模型的神秘面紗。

有人問你:語言模型到底是什么?怎么解釋?

如果說,它是一種預(yù)測(cè)生成自然語言的模型,能夠理解一個(gè)人標(biāo)的問題,然后給出答案。你可能略聽懂一二,但想深入理解就難了。怎么辦?

我們不妨從研究者視角,來看看他們眼中的語言模型。

01

以前,人們研究語言時(shí),常使用「自動(dòng)機(jī)」這個(gè)概念。

喬姆斯基就提倡大家用自動(dòng)機(jī)來研究語言,自動(dòng)機(jī)的工作原理是:如果你說的一句話是對(duì)的,它就接受;如果是錯(cuò)的,它就拒絕。這就像寫一個(gè)程序,用來判斷句子是否正確。

但語言模型的想法有些不同,它認(rèn)為,句子并不是非黑即白的,而是有一定的“軟性”。

比如:你說“中國的首都是北京”,這句話是對(duì)的,概率很高。但如果你說“美國的首都是北京”,雖然這句話在語法上沒問題,但事實(shí)是錯(cuò)誤的。

語言模型不會(huì)直接拒絕它,而是認(rèn)為它的概率比較低。

語言模型會(huì)把句子中的每個(gè)詞(比如“中國”、“首都”、“北京”)組合起來,計(jì)算它們的聯(lián)合概率。如果我們能準(zhǔn)確預(yù)測(cè)這個(gè)聯(lián)合概率,就說明我們對(duì)語言的理解比較準(zhǔn)確。

這里有一個(gè)重要的信念:如果我們能通過聯(lián)合概率模型判斷出“中國的首都是北京”是對(duì)的,而“美國的首都是北京”是錯(cuò)的,那么這個(gè)模型就具備了一些類似人類的知識(shí)。

也就是說,人工智能可能就隱藏在準(zhǔn)確預(yù)測(cè)聯(lián)合概率的過程中。所以,如果我們能把語言模型做好,就相當(dāng)于獲得了人工智能的能力。

當(dāng)然,關(guān)于這方面,有不同的觀點(diǎn)。

比如,伊利亞(OpenAI的ChatGPT團(tuán)隊(duì))認(rèn)為,只要你能準(zhǔn)確預(yù)測(cè)下一個(gè)詞,就意味著你對(duì)現(xiàn)實(shí)世界的理解非常準(zhǔn)確。

但也有反對(duì)的聲音,比如圖靈獎(jiǎng)得主Judea Pearl,他研究的是因果推理,他認(rèn)為僅僅通過統(tǒng)計(jì)來預(yù)測(cè)語言是不夠的,真正的理解需要通過因果推理來實(shí)現(xiàn)。

所以,語言模型爭(zhēng)論從1960年的符號(hào)主義出現(xiàn),到1980年,一直在爭(zhēng)論。

后來,基于統(tǒng)計(jì)學(xué)的NPL出現(xiàn)后,后來人們稱它為“自回歸模型”,它的目標(biāo)不是直接預(yù)測(cè)整個(gè)句子的聯(lián)合概率,而是把這個(gè)聯(lián)合概率拆分成多個(gè)條件概率。

簡(jiǎn)單來說,就是通過前面的詞來預(yù)測(cè)下一個(gè)詞。比如,我們要說一句話:“Today is Monday?!边@句話沒問題,那么它的概率是怎么算的呢?

首先,第一個(gè)詞“Today”出現(xiàn)的概率是多少?然后,在已知第一個(gè)詞是“Today”的情況下,第二個(gè)詞“is”出現(xiàn)的概率是多少?接著,在已知前兩個(gè)詞是“Today is”的情況下,第三個(gè)詞“Monday”出現(xiàn)的概率是多少?

把這些概率乘起來,就得到了整個(gè)句子的概率。這種方法叫做「自回歸」。

自回歸模型概念最早可以追溯的喬治·尤爾(George Udny Yule)在1927年的研究工作,直到20世紀(jì)70年代這個(gè)想法才進(jìn)一步得到驗(yàn)證。

不過,實(shí)際操作中,這種建模方式有點(diǎn)難。

因?yàn)槿绻渥犹貏e長(zhǎng),后面的詞需要依賴前面很多詞,而語料庫中恰好出現(xiàn)一模一樣句子的概率很低。

所以,大家通常會(huì)用“n-gram”語言模型來簡(jiǎn)化問題?!皀-gram”模型是什么意思呢?就是限制一下,只看前面的幾個(gè)詞。比如,1-gram就是只看當(dāng)前詞,每個(gè)詞獨(dú)立統(tǒng)計(jì)概率。

舉個(gè)例子:

如果我們用《人民日?qǐng)?bào)》的語料來建模型,統(tǒng)計(jì)每個(gè)字出現(xiàn)的概率,然后按這個(gè)概率隨機(jī)生成句子。這樣生成的句子可能不太通順,但如果逐漸增加n-gram的長(zhǎng)度,比如到4-gram或5-gram,生成的句子就會(huì)更通順,甚至有點(diǎn)《人民日?qǐng)?bào)》的味道。

不過,n-gram模型也有問題。如果n設(shè)得太大,比如5-gram或6-gram,需要的語料量會(huì)非常大;因?yàn)檫B續(xù)五六個(gè)詞一起出現(xiàn)的情況比較少見,必須有足夠多的數(shù)據(jù)才能支持這種模型。

后來,人們基于自回歸發(fā)明了更好的方法。

1966年,鮑姆和韋爾奇提出了隱馬爾可夫模型(HMM)及其訓(xùn)練方法;其實(shí),n-gram模型很早就有,1913年馬爾可夫就用它來預(yù)測(cè)詞了;但HMM直到1966年才被發(fā)明出來,真正應(yīng)用到自然語言處理中已經(jīng)是1989年了。

再后來,Rabiner等人寫了一篇經(jīng)典文章,教大家如何在語音識(shí)別中使用HMM,這篇文章被引用了很多次,成為了非常經(jīng)典的工作。

這說明,從技術(shù)發(fā)明到實(shí)際應(yīng)用,往往需要很長(zhǎng)時(shí)間。

02

到了2000年,語言模型的發(fā)展逐漸進(jìn)入快車道,人們發(fā)現(xiàn),越來越多的模型效率更高,效果更好,能夠更好地建模語言。比如,2000年時(shí),有人開始用神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)n-gram的概率。

具體來說,就是把前面N個(gè)詞輸入神經(jīng)網(wǎng)絡(luò),得到一個(gè)中間結(jié)果,再把這些結(jié)果拼起來,通過另一個(gè)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)下一個(gè)詞。

這聽起來有點(diǎn)“暴力”,但效果確實(shí)不錯(cuò)。這篇文章也成為用神經(jīng)網(wǎng)絡(luò)建模語言模型的開山之作,被引用了上萬次,非常重要。

再過十年,到了2010年,人們開始用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來建模語言模型。

RNN好處是,它不受n-gram的限制。n-gram只能看到前面N個(gè)詞,而RNN理論上可以記住歷史上所有的詞,雖然實(shí)際使用時(shí),由于梯度消失等問題,效果并不理想。

RNN的模型也很難訓(xùn)練和調(diào)試。這一年,Mikolov等人做了一些經(jīng)典工作,推動(dòng)了RNN的應(yīng)用。

到了2014年,序列到序列學(xué)習(xí)(seq2seq)出現(xiàn)了。它用LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))來解決語言模型中的梯度消失問題。LSTM通過增加記憶單元,能夠記住更久遠(yuǎn)的信息。seq2seq與之前的模型不同,它有一個(gè)“讀”的過程。比如:

用戶輸入一個(gè)句子“ABC”,模型會(huì)從這個(gè)句子開始預(yù)測(cè)回答。這種模型引入了編碼器和解碼器的概念,為后來的語言模型奠定了基礎(chǔ)。

2017年,Transformer模型出現(xiàn)了。

它的核心是注意力機(jī)制,但更重要的是,它找到了一種適合大規(guī)模擴(kuò)展的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。以前的RNN和LSTM很難做大,訓(xùn)練速度慢,而Transformer訓(xùn)練速度快,容易擴(kuò)展。這使得模型規(guī)??梢宰兊梅浅4?。

到了2020年,大家熟悉的GPT-3和GPT-4出現(xiàn)了。

它們的一個(gè)重要貢獻(xiàn)是提出了“縮放定律”:模型越大,效果越好。另一個(gè)突破是,它將所有自然語言處理(NLP)任務(wù)統(tǒng)一到一個(gè)模型中。

以前,不同的任務(wù)(比如分類、實(shí)體識(shí)別)需要不同的模型,而GPT-3認(rèn)為,所有任務(wù)都可以看作語言模型問題。這為探索通用人工智能提供了新的思路。

總的來說,語言模型的發(fā)展經(jīng)歷了從神經(jīng)網(wǎng)絡(luò)到RNN,再到LSTM、Transformer,最后到GPT的過程。每一步都在推動(dòng)技術(shù)的進(jìn)步,讓我們離通用人工智能更近了一步。

簡(jiǎn)單講,大語言模型從出現(xiàn)到現(xiàn)在主要的三個(gè)時(shí)期是:

一,結(jié)構(gòu)主義語言學(xué)邁向行為主義語言學(xué);二,基于喬姆斯基啟發(fā),符號(hào)主義NLP出現(xiàn);三,大家發(fā)現(xiàn)符號(hào)主義不是正確路線后,統(tǒng)計(jì)NLP才開始出現(xiàn),最后,技術(shù)的各種研究到了奇點(diǎn)時(shí),Transformer架構(gòu)出現(xiàn)。

實(shí)際上,語言模型的發(fā)展過程中,我們受到了喬姆斯基的影響。

中間有一段時(shí)間,大家主要研究“生成語言學(xué)”,也就是用符號(hào)邏輯來分析語言,這種研究方式持續(xù)了一段時(shí)間,但也導(dǎo)致了發(fā)展速度的放緩,甚至可以說是一個(gè)低潮期。

后來,人們發(fā)現(xiàn)統(tǒng)計(jì)方法才是正確的方向。

于是,語言模型的發(fā)展速度逐漸加快,特別是最近幾年,隨著計(jì)算能力的提升,我們可以訓(xùn)練越來越大的模型,也找到了更適合的模型結(jié)構(gòu)。這使得語言模型的發(fā)展速度在近幾年呈現(xiàn)出爆炸式的增長(zhǎng)。

03

了解完整個(gè)模型歷史脈絡(luò)后,我們不妨思考下:為什么要研究語言呢?

首先,我們要理解語言與其他信息形式的不同之處。

在研究通用人工智能時(shí),語言為何成為重點(diǎn)?這是因?yàn)檎Z言與智能之間有著獨(dú)特的緊密聯(lián)系,這種聯(lián)系是其他信息形式所不具備的。

喬姆斯基認(rèn)為,語言是思考的工具。

他提出,要理解人類心智,必須研究語言,因?yàn)檎Z言與心智密切相關(guān)。他的觀點(diǎn)與我們有所不同。

盡管人類的語言機(jī)制存在許多歧義和低效之處,但如果將其視為思考的工具,就會(huì)發(fā)現(xiàn)它實(shí)際上非常有效。因此,喬姆斯基認(rèn)為語言是思考的工具。

而我們的主要觀點(diǎn)是“壓縮論”。

人工智能可以表現(xiàn)為一種壓縮的形式,語言之所以重要,是因?yàn)槿祟愔g的交流主要依賴于語言,我們沒有更好的替代方法。然而,語言交流的帶寬其實(shí)非常低。

有一項(xiàng)研究指出,無論使用何種語言,人與人之間交換信息的速度大約為每秒40個(gè)比特,這個(gè)速度相當(dāng)?shù)?。你可以想象,以這種速度下載一部電影需要多長(zhǎng)時(shí)間。

因此,為了有效地交流,人類必須對(duì)信息進(jìn)行壓縮。壓縮信息會(huì)損失很多細(xì)節(jié),這促使我們形成了許多抽象概念。

這些概念使我們對(duì)世界的認(rèn)知變得更加概念化,換句話說,語言是推動(dòng)我們產(chǎn)生抽象認(rèn)知的環(huán)境壓力來源。為了與他人交流,我們必須思考事物背后的規(guī)律和本質(zhì)。這就是語言如此重要的原因。

舉個(gè)例子:

謝氏家錄講的是謝靈運(yùn)。謝靈運(yùn)生活在魏晉南北朝時(shí)期,當(dāng)時(shí)他在官場(chǎng)上不太順利,被貶到了溫州,也就是現(xiàn)在的永嘉。據(jù)說,謝靈運(yùn)每次見到他的弟弟慧蓮,就能寫出優(yōu)美的詩篇。

有一次,他在溫州的屋子里待了好幾天,怎么也寫不出詩來。突然有一天,在迷糊的狀態(tài)下,他見到了弟弟,靈感一來,就寫出了“池塘生春草”這句詩。他說這是神助,不是他自己的話。

我們可以想象一下,謝靈運(yùn)被貶到溫州后,心里很苦悶,有很多情感想要表達(dá),他見到弟弟時(shí),弟弟并不知道他的心情。

于是,謝靈運(yùn)通過提煉,寫出了簡(jiǎn)短的詩句,通過這種方式,用很低的信息傳遞量,把情感傳達(dá)給了弟弟,雖然弟弟理解的場(chǎng)景可能和實(shí)際的不一樣,但精神是一致的。這體現(xiàn)了人類在信息壓縮上的高智能。

再比如,不同語言對(duì)顏色的描述也有所不同。

現(xiàn)在大家都知道,顏色可以用色相、飽和度和亮度這三個(gè)維度來描述。

有人統(tǒng)計(jì)過,世界上不同的語言用哪些詞來描述顏色;比如,我們有紅色、黃色、粉色等詞匯。但在自然界中較少的藍(lán)色和紫色,我們用的詞匯就比較少,這反映了概念化的過程。

語言對(duì)我們的認(rèn)知也有直接影響,這一點(diǎn)可以通過實(shí)驗(yàn)來測(cè)量。有人研究過俄國人對(duì)顏色的認(rèn)識(shí),因?yàn)槎碚Z和英語在描述藍(lán)色時(shí)有所不同。英語中,我們通常把藍(lán)色都稱為“blue”,然后說這是淺藍(lán)或深藍(lán)。

而俄語中,深藍(lán)和淺藍(lán)是兩個(gè)完全不同的詞。實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)給俄國人看兩個(gè)顏色時(shí),如果兩個(gè)都是深藍(lán)或淺藍(lán),他們分辨起來比較慢。

但如果一個(gè)是深藍(lán)一個(gè)是淺藍(lán),他們分辨得就比較快。這說明語言對(duì)認(rèn)知有影響。如果在他們分辨顏色時(shí),再給他們一些語言上的干擾,這種速度優(yōu)勢(shì)就會(huì)消失,分辨速度會(huì)變慢。

所以,通過實(shí)驗(yàn)可以觀察到,語言確實(shí)對(duì)我們的認(rèn)知功能有深刻的影響。

04

其二,語言的重要性不可言喻。

如果沒有語言,人類的高級(jí)思考活動(dòng)可能就無法進(jìn)行,語言是思考的基礎(chǔ)工具,它與我們?nèi)祟惖闹R(shí)和文化有著深刻的聯(lián)系。

比如,我們的文化和科技成就都是通過語言來傳承的。你可以看到,很多知識(shí)和智慧都蘊(yùn)含在語言中。

以我們中國人和美國人的思考方式為例,它們是不同的。為什么呢?

因?yàn)槲覀冇泻芏喑烧Z和典故,這些都影響了我們的思維方式。比如,當(dāng)一個(gè)同學(xué)在研究中遇到困難,轉(zhuǎn)而去打游戲時(shí),我們可能會(huì)說他“玩物喪志”。

雖然大家都知道這個(gè)詞,但你知道它背后的故事嗎?它源自周武王滅商后,西呂國送給他一條藏獒,他沉迷其中,大臣勸諫說“玩物喪志”,提醒他要專心工作。這些成語雖然簡(jiǎn)單,卻包含了豐富的歷史和智慧。

所以,語言不僅是知識(shí)的載體,還是一種高度抽象的符號(hào)系統(tǒng),它對(duì)我們的認(rèn)知有深刻的影響,參與了我們的各種活動(dòng)。

我們通常認(rèn)為,語言能力強(qiáng)的人,智能也較高。比如,在招學(xué)生時(shí),我們更喜歡口齒伶俐的同學(xué),因?yàn)樗麄兺ǔD芨玫乇磉_(dá)自己的想法,做科研時(shí)也會(huì)更順利.

另外,從可行性角度來看,相比語音、視覺或視頻數(shù)據(jù),文本數(shù)據(jù)的收集成本要低得多,因此,以語言為中心構(gòu)建人工智能模型更為方便。

這是前幾天學(xué)習(xí)筆記,分享給你,總結(jié)時(shí)間留給你。

本文由人人都是產(chǎn)品經(jīng)理作者【王智遠(yuǎn)】,微信公眾號(hào):【王智遠(yuǎn)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!