MetaNMT :來自MAML與NLP的溫柔救贖

0 評論 1258 瀏覽 1 收藏 11 分鐘

新神經(jīng)機器翻譯方法MetaNMT一經(jīng)提出,就憑借其在低資源神經(jīng)機器翻譯上的優(yōu)越性能表現(xiàn)而備受學(xué)界褒獎。MetaNMT的優(yōu)異表現(xiàn)還要歸功于MAML——與模型無關(guān)的元學(xué)習(xí),使得MetaNMT與傳統(tǒng)的NLP不同,能夠更加高效地完成任務(wù)。

過去十年,隨著Attention模型、LSTM、記憶Memory等等方法的出現(xiàn),尤其是在神經(jīng)網(wǎng)絡(luò)的加持下,機器翻譯的水平取得了長足的進步。

在英法、中英這樣的大語種(Rich Language)翻譯任務(wù)上,機器的表現(xiàn)幾乎可以媲美人類的水平。甚至已經(jīng)開始登堂入室,承接了不少國際大會的翻譯業(yè)務(wù),讓人類翻譯感受到了深深的失業(yè)焦慮。

然而,神經(jīng)機器翻譯(NMT)的成功,往往依賴于以大量高質(zhì)量的雙語語料作為訓(xùn)練數(shù)據(jù)。如果是蒙古語、印度語這些小語種,無法提供足夠多的雙語數(shù)據(jù),更極端的現(xiàn)實情況是,有些語言幾乎沒有任何雙語預(yù)料,這種情況下NMT就無能為力了。

標注數(shù)據(jù)資源的貧乏問題,一直沒有什么好的解決辦法。

因此,來自香港大學(xué)、紐約大學(xué)的研究人員Jiatao Gu、Yong Wang等人,提出了新神經(jīng)機器翻譯方法——MetaNMT。

論文一經(jīng)發(fā)表,就憑借在低資源神經(jīng)機器翻譯(NMT)上的優(yōu)異性能表現(xiàn)驚艷了學(xué)界,成為2018年最具影響力的NLP創(chuàng)新之一。論文不僅被NLP領(lǐng)域領(lǐng)先的會議EMNLP收錄,還拿下了Facebook的低資源神經(jīng)機器翻譯獎。

今天,我們就來看看MetaNMT方法究竟有何過人之處?

什么是MetaNMT算法?

簡單來說:MetaNMT算法就是將元學(xué)習(xí)算法(MAML),用于低資源神經(jīng)機器翻譯(NMT)中。將翻譯問題建構(gòu)為元學(xué)習(xí)問題,從而解決低資源語言語料匱乏的難題。

研究人員先使用許多高資源語言(比如英語和法語),訓(xùn)練出了一個表現(xiàn)極佳的初始參數(shù),然后使構(gòu)建一個所有語言的詞匯表。再以初始參數(shù)/模型為基礎(chǔ),訓(xùn)練低資源語言的翻譯(比如英語VS希伯來語,法語VS希伯來語)。

在此基礎(chǔ)上,進行進一步優(yōu)化初始模型,最終得到的模型就可以很好地提升小語種翻譯模型的性能。

具體到實驗中,研究人員使用十八種歐洲語言所訓(xùn)練的元學(xué)習(xí)策略,被應(yīng)用在以五種小語種語言(Ro,Lv,F(xiàn)i,Tr和Ko)為目標的任務(wù)中。

結(jié)果證明:通過16000個翻譯單詞(約600個并行句子),羅馬尼亞語-英語WMT’16上實現(xiàn)高達22.04 BLEU。

低資源神經(jīng)機器翻譯MetaNMT :來自MAML與NLP的溫柔救贖

數(shù)據(jù)顯示:MetaNMT訓(xùn)練出的系統(tǒng),表現(xiàn)要明顯優(yōu)于基于多語言遷移學(xué)習(xí)。

這意味著:只需要一小部分的訓(xùn)練樣例,我們就能訓(xùn)練出效果更好的NMT系統(tǒng)。很多語料庫非常小的語言,機器翻譯時也不會再一籌莫展或者胡言亂語了。

NLP的神助攻:元學(xué)習(xí)強在何處?

MetaNMT之所以取得如此良好的效果,核心就在于引入的MAML(Model Agnostic Meta Learning)——即與模型無關(guān)的元學(xué)習(xí)方法。

簡單來說,元學(xué)習(xí)就是要讓智能體利用以往的知識經(jīng)驗“學(xué)會如何學(xué)習(xí)”(Learning to learn),然后更高效地完成新任務(wù)。

傳統(tǒng)NLP任務(wù)中常用的遷移學(xué)習(xí)(transfer leaning)或多任務(wù)學(xué)習(xí)(Multi-Task Learning),輸入端訓(xùn)練得到的編碼器(Encoder),會直接轉(zhuǎn)化為對應(yīng)的向量表示序列,直指目標任務(wù)。

而MetaNMT,則是通過高資源語言系統(tǒng)的訓(xùn)練,得到一個獨立于原任務(wù)的通用策略方法,再讓極低資源的語言系統(tǒng)根據(jù)這種學(xué)習(xí)方法,并反復(fù)地模擬訓(xùn)練。

低資源神經(jīng)機器翻譯MetaNMT :來自MAML與NLP的溫柔救贖

過去,元學(xué)習(xí)一直被用來進行小樣本學(xué)習(xí)、通用機器人等訓(xùn)練中。MetaNMT的提出,也是MAML第一次在NLP領(lǐng)域成功應(yīng)用。

那么,未來隨著元學(xué)習(xí)的加入,NLP領(lǐng)域會產(chǎn)生哪些可能的變化呢?

首先,降低NLP任務(wù)的研究門檻。

深度增強學(xué)習(xí)需要的訓(xùn)練數(shù)據(jù)量規(guī)模越來越大,游戲等動態(tài)任務(wù)環(huán)境所涉及的獎勵機制也日趨復(fù)雜。

在StyleGAN、BERT等“巨無霸”模型的爭奪下,GPU/TPU計算時長變得極其昂貴,NLP儼然快要成為土豪大公司才有資格玩的游戲了。

與之相比,通過少量樣本資源就能學(xué)會新概念的元學(xué)習(xí)方法,可以只使用少量的梯度迭代步來解決新的學(xué)習(xí)任務(wù),就顯得平易近人很多。

其次,提升NLP任務(wù)的學(xué)習(xí)效率。

傳統(tǒng)的數(shù)據(jù)集更新周期長,往往需要根據(jù)新任務(wù)進行改造和再編輯。

而元學(xué)習(xí)就改變了這一現(xiàn)狀,先讓系統(tǒng)接觸大量的任務(wù)進行訓(xùn)練,再從中學(xué)會完成新任務(wù)的方法,可以快速(只需少量步驟)高效(只使用幾個例子)地應(yīng)用于廣泛的NLP任務(wù)中。

尤其是在特定領(lǐng)域?qū)υ捪到y(tǒng)、客服系統(tǒng)、多輪問答系統(tǒng)等任務(wù)中,在用戶的使用過程中就可以收集豐富的信息,讓系統(tǒng)在動態(tài)學(xué)習(xí)中構(gòu)建越來越強大的性能。

除此之外,元學(xué)習(xí)還能幫助NLP實現(xiàn)個性化、智能化進階。

特定用戶可以根據(jù)已有的知識經(jīng)驗和認知結(jié)構(gòu),與元學(xué)習(xí)系統(tǒng)之間建立聯(lián)系。通過不同個體的動態(tài)交互與信息反饋等,元學(xué)習(xí)系統(tǒng)可以不斷豐富,和修正自身的知識網(wǎng)絡(luò)和輸出效果,最終使得構(gòu)建個性化產(chǎn)品變得更加方便快捷,高智能交互也因此成為可能。

總而言之,F(xiàn)ew-Shot(低資源)、Fast Adaptation(高適應(yīng)性)、Reusability(重用性)等特點,使得元學(xué)習(xí)的價值前所未有地清晰起來,某種程度上也代表了NLP接下來的研究方向。

道阻且長:NLP的進化之路

既然元學(xué)習(xí)之于NLP領(lǐng)域意義重大,為什么直到現(xiàn)在才出現(xiàn)了一個成功案例呢?

這恐怕還要從低資源型語言的研究現(xiàn)狀說起。

前面提到:驗證元學(xué)習(xí)系統(tǒng)性能最好的方式,就是將其放到低資源任務(wù)中,看看是否和大規(guī)模任務(wù)一樣出色。

但這么做有個前提,就是:能夠建立起對應(yīng)的數(shù)據(jù)集。

然而,這對稀缺資源的小語種來說,也不是件容易的事。

以MetaNMT為例:就為各個語言建立了詞匯表。

其中的低資源型目標任務(wù)——土耳其語、拉脫維亞語、羅馬尼亞語、芬蘭語等等,就是通過16000個翻譯單詞(約600個并行句子)完成的,這已經(jīng)是目前神經(jīng)機器翻譯的極限了。

然而,全世界6000多種語言中,80%人口講的都是主要的83種語言,剩下的有30%都處在語料資源極度匱乏的狀態(tài),而且絕大多數(shù)沒有任何文字記載,有的甚至使用者不足十人。

缺乏相關(guān)的數(shù)據(jù)集,往往只有少量文本可供使用,成為阻礙小語種機器翻譯最大的攔路虎。即使有元學(xué)習(xí)這樣的神兵利器,也沒有用武之地。而近年來,情況正在發(fā)生一些積極的變化。

一方面越來越多的人開始重視瀕危語言保護問題,出現(xiàn)了公益化的語料收集項目和相關(guān)數(shù)據(jù)庫,大大降低了小語種的研究難度。

比如:南非數(shù)字語言資源中心(SADiLaR),已經(jīng)能夠提供許多南非的語言資源。

另外,NLP研究的發(fā)展,也激發(fā)了更多的人創(chuàng)建,并開放出極低資源語料數(shù)據(jù)集,為跨語言模型開發(fā)、低資源語言訓(xùn)練等提供了可能性。

比如:FAIR 和紐約大學(xué)的研究者合作開發(fā)的一個自然語言推斷語料庫 XNLI,將MultiNLI 的測試集和開發(fā)集擴展到 15 種語言,里面就包含了斯瓦西里語和烏爾都語等低資源語言。

目前看來,MetaNMT之所以備受褒獎,并不是因為它一出手就取得了什么炸裂至極的效果。

它的價值,更多的是作為一種靈感和理念,去傳達技術(shù)的本質(zhì),引領(lǐng)更具價值的理想化的創(chuàng)造。

NLP的進步,不應(yīng)來自于堆砌資源和規(guī)模,不應(yīng)只停留在本就飽和的領(lǐng)域,而是構(gòu)建出真正無障礙的語言系統(tǒng)。讓說著匱乏型語言的人們,也能夠閱讀非母語的新聞,或者在遇到問題時求助于可靠的專家系統(tǒng)。

如果技術(shù)不去往那些真正的荒蕪之地,又有什么意義?

 

作者:腦極體,微信公眾號:腦極體

本文由 @腦極體 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來源于 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!