隱藏的學(xué)霸之魂:Zero-Shot Learning如何打破“零起點(diǎn)”的封???
本篇文章將帶領(lǐng)大家回顧一下2018年計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,enjoy~
2018年還剩不到10天,回顧一下今年CV(Computer Vision,計(jì)算機(jī)視覺(jué))領(lǐng)域的進(jìn)展,在技術(shù)上并沒(méi)有迎來(lái)什么革命性的新突破。幾個(gè)頭部企業(yè)的業(yè)務(wù)重點(diǎn),除了強(qiáng)化現(xiàn)有算法的精度,更多還是將精力投擲在商業(yè)布局上。
似乎每家公司都在為這個(gè)看得見(jiàn)的“賽點(diǎn)”爭(zhēng)分奪秒地發(fā)掘新應(yīng)用場(chǎng)景。
不過(guò),還是有很多新技術(shù)的進(jìn)步值得我們專(zhuān)門(mén)用一篇文章來(lái)說(shuō)一說(shuō),比如今天要講的Zero-Shot Learning。
畢竟,當(dāng)場(chǎng)景被開(kāi)發(fā)到極限,大家就又回到了技術(shù)的起跑線(xiàn)。
什么是ZSL?
零樣本學(xué)習(xí)zero-shot learning,是最具挑戰(zhàn)的機(jī)器識(shí)別方法之一。2009年,Lampert 等人提出了Animals with Attributes數(shù)據(jù)集和經(jīng)典的基于屬性學(xué)習(xí)的算法,開(kāi)始讓這一算法引起廣泛關(guān)注。之所以如此重要,因?yàn)槠溴漠愑趥鹘y(tǒng)圖像識(shí)別任務(wù)的思考方式。
從原理上來(lái)說(shuō),ZSL就是讓計(jì)算機(jī)具備人類(lèi)的推理能力,來(lái)識(shí)別出一個(gè)從未見(jiàn)過(guò)的新事物。
舉個(gè)例子,我們告訴一個(gè)從沒(méi)見(jiàn)過(guò)斑馬的小朋友:“斑馬是一種長(zhǎng)得像馬,身上有黑白色條紋的動(dòng)物”,他就可以很輕松地在動(dòng)物園里找出來(lái)哪個(gè)是斑馬。
可是,在傳統(tǒng)的圖像識(shí)別算法中,要想讓機(jī)器認(rèn)出“斑馬”,往往需要給機(jī)器投喂足夠規(guī)模的“斑馬”樣本才有可能。而且,利用“斑馬”訓(xùn)練出來(lái)的分類(lèi)器,就無(wú)法識(shí)別其他物種。但是ZSL就可以做到,一次學(xué)習(xí)都沒(méi)有,只憑特征描述就識(shí)別出新事物,這無(wú)疑離人類(lèi)智力又近了一步。
那么,這種“天秀”到底是怎么工作的?
簡(jiǎn)單說(shuō)的話(huà),就是利用高維語(yǔ)義特征代替樣本的低維特征,使得訓(xùn)練出來(lái)的模型具有遷移性。
比如斑馬的高維語(yǔ)義就是“馬的外形,熊貓的顏色,老虎的斑紋”,盡管缺乏更多細(xì)節(jié),但這些高位予以已經(jīng)足夠?qū)Α鞍唏R”進(jìn)行分類(lèi),從而讓機(jī)器成功預(yù)測(cè)出來(lái)。
這就解決了圖像識(shí)別長(zhǎng)久以來(lái)的問(wèn)題:如果一個(gè)事物從來(lái)沒(méi)有在現(xiàn)有數(shù)據(jù)集中出現(xiàn)過(guò),機(jī)器應(yīng)該如何學(xué)習(xí)和識(shí)別它。聽(tīng)起來(lái)是不是很爽很智能的樣子,實(shí)際上也確實(shí)如此!
ZSL的“優(yōu)越感”來(lái)自哪里?
在CV領(lǐng)域的頂會(huì)CVPR 2018 會(huì)議中,一個(gè)關(guān)于使用鑒別性特征學(xué)習(xí)零樣本識(shí)別的論文,被認(rèn)為代表了該領(lǐng)域當(dāng)前的最佳水平。之所以受到如此重視,主要源于近年來(lái)零樣本學(xué)習(xí)(ZSL)在目標(biāo)識(shí)別任務(wù)中的大顯身手。
由于ZSL所挑戰(zhàn)的現(xiàn)實(shí)情境前所未有地苛刻,使其具備了影響其他圖像識(shí)別效果的關(guān)鍵能力。
現(xiàn)有識(shí)別技術(shù)大多集中于監(jiān)督學(xué)習(xí),所以需要不斷推出更大的數(shù)據(jù)集,谷歌曾介紹說(shuō)他們?cè)谟?00Million的3D圖片進(jìn)行訓(xùn)練。而且,每個(gè)領(lǐng)域還需要各自的數(shù)據(jù)集。
這種情況下,全部進(jìn)行數(shù)據(jù)標(biāo)注的工作量也變得很大,很多新生事物更是想標(biāo)注都無(wú)從談起。這樣在部署端的效率和成本就成了產(chǎn)業(yè)的“不可承受之重”。
那怎么辦呢?科研人員只好努力讓機(jī)器學(xué)會(huì)“花更少的錢(qián),辦更多的事”。
以騰訊AI Lab的研究為例,其“Diverse Image Annotation”,就是充分利用標(biāo)簽之間的語(yǔ)義關(guān)系,用少量多樣性標(biāo)簽來(lái)表達(dá)盡可能多的圖像信息,實(shí)現(xiàn)自動(dòng)標(biāo)注。
ZSL則更為極端,要在一個(gè)樣本都沒(méi)有的前提下“空手套白狼”,這種極限挑戰(zhàn),就給技術(shù)界帶來(lái)了新的活力。
首先,ZSL降低現(xiàn)有算法對(duì)數(shù)據(jù)集的依賴(lài)和標(biāo)注的壓力,有利于提升機(jī)器視覺(jué)技術(shù)的親和力及部署效率;另外,現(xiàn)在產(chǎn)業(yè)端對(duì)縮減算力需求的呼聲日漸高漲,ZSL清晰有效地指向了可行的解決方案;
更重要的是,ZSL解決的不僅僅是視覺(jué)問(wèn)題,更與NLP的發(fā)展相輔相成。根據(jù)模糊高維的語(yǔ)義描述去進(jìn)行識(shí)別,對(duì)機(jī)器的要求不僅僅是簡(jiǎn)單分類(lèi),還要理解特征一些人類(lèi)的高級(jí)知識(shí),比如一種藝術(shù)作品的風(fēng)格、一種特殊的情緒等。找到這種語(yǔ)義上的聯(lián)系,將機(jī)器視覺(jué)與NLP技術(shù)聯(lián)合在一起解決問(wèn)題,ZSL激發(fā)的技術(shù)想象很是有趣。
都說(shuō)“數(shù)據(jù)是AI的燃料”,那沒(méi)有燃料是不是就注定GG? ZSL表示可以續(xù)命,就是這么得瑟!
從0到1:ZSL和OSL有何不同?
這時(shí),想必很多關(guān)注技術(shù)趨勢(shì)的同學(xué)可能已經(jīng)發(fā)現(xiàn)了,零樣本學(xué)習(xí)與少樣本學(xué)習(xí)(OSL,One-Shot Learning)在最終的應(yīng)用成果上,似乎作用很相近啊。比如說(shuō),都指向了高層次的認(rèn)知問(wèn)題。只要給OSL一張“斑馬”的圖片,它就能很高效地將它從其他動(dòng)物中鑒別出來(lái)。背后靠的也是從很少的標(biāo)簽中學(xué)習(xí)、分類(lèi)和推理的能力。
在應(yīng)用端,因?yàn)槎疾灰蕾?lài)龐大的數(shù)據(jù)集,兩種模型都能幫助產(chǎn)業(yè)的AI識(shí)別實(shí)現(xiàn)降本增效。
按理說(shuō),既然零樣本是少樣本的子集,那么是不是可以直接套用ZSL的模型來(lái)解決OSL的問(wèn)題呢?
其實(shí)是可以的。畢竟“從沒(méi)見(jiàn)過(guò)”與“見(jiàn)過(guò)一次”相比,“從0到1”的技術(shù)難度要求更高。
不過(guò),二者并不能輕易地被替代或劃等號(hào),各自的研究都很有意義。
比草原廣闊:ZSL的應(yīng)用場(chǎng)景
那么,ZSL到底能干些什么呢?前面我們說(shuō)過(guò),目前產(chǎn)業(yè)界應(yīng)用深度學(xué)習(xí)最大的痛點(diǎn),無(wú)非是愛(ài)上一匹野馬(泛化能力),可是家里沒(méi)有草原 (高質(zhì)量數(shù)據(jù)集) 。也并沒(méi)有企業(yè)會(huì)為了幾匹野馬,就不計(jì)成本地承包所有草原。
而ZSL能夠提供的想象空間,就比“草原”大得多了:
1.圖像自動(dòng)標(biāo)注、處理。人工標(biāo)注代價(jià)高、速度慢,一旦ZSL被應(yīng)用,其語(yǔ)義理解和遷移能力,借助知識(shí)圖譜的輔助(如屬性、文本描述等),把不同的視覺(jué)聯(lián)合在一起進(jìn)行系統(tǒng)觀(guān)察,可以自動(dòng)完成數(shù)據(jù)的識(shí)別和標(biāo)注工作,而且結(jié)果的準(zhǔn)確性不低于人工。
2.未知或生僻語(yǔ)種翻譯。在電影《降臨》中,美國(guó)的語(yǔ)言學(xué)家通過(guò)艱難地特征推斷,完成了與外星人的溝通。未來(lái),這件事可以由機(jī)器來(lái)代勞。比如說(shuō)一些樣本很少甚至早已不可考的語(yǔ)言(比如烏伯克語(yǔ)),通過(guò)ZSL系統(tǒng)就可以自動(dòng)完成翻譯過(guò)程,實(shí)現(xiàn)宇宙的love&peace。
3.新類(lèi)別的圖像合成。ZSL的學(xué)習(xí)目標(biāo)是識(shí)別新事物,一些新類(lèi)別的圖像合成,完全可以通過(guò)ZSL被創(chuàng)造出來(lái)。比如還原已經(jīng)滅絕的物種。也許未來(lái)你在《侏羅紀(jì)》系列中看到的恐龍,就是機(jī)器“畫(huà)”出來(lái)的。4.視頻識(shí)別。目前,越來(lái)越多的數(shù)據(jù)是視覺(jué)與文本信號(hào)共同出現(xiàn),比如綜合性視頻網(wǎng)站,視頻、音頻、字幕、彈幕、評(píng)論等多模態(tài)信息都有,想要挖掘它們之間的相關(guān)性,就依賴(lài)于ZSL的宏觀(guān)預(yù)測(cè)能力。
總而言之,讓機(jī)器能夠像人一樣憑借“只言片語(yǔ)”做出推理和判斷,是一個(gè)很有用的功能。
從入門(mén)到放棄:ZSL的問(wèn)題依然頑固
既然這么牛,為什么ZSL一直不溫不火呢?至少?zèng)]有像其他深度學(xué)習(xí)算法一樣成為“群寵”。主要原因還是在于幾個(gè)“牛皮癬式”的頑疾:一是ZSL的效果依賴(lài)于相似模態(tài)的信息。在訓(xùn)練時(shí)如果訓(xùn)練集和測(cè)試集的類(lèi)別相差太大,比如一個(gè)里面全是動(dòng)物,另一個(gè)里面全是家居,這時(shí)讓ZSL分析二者的映射關(guān)系就太困難了,就很容易出現(xiàn)屬性漂移的“強(qiáng)偏”問(wèn)題,難以預(yù)測(cè)出正確的結(jié)果,導(dǎo)致ZSL的性能表現(xiàn)大打折扣。
二是缺乏足量的專(zhuān)業(yè)定義和描述。ZSL雖然不需要大量的圖像數(shù)據(jù)集,但需要進(jìn)行特征描述。這方面人工比機(jī)器分類(lèi)效果更好。但目前還缺乏足夠的專(zhuān)業(yè)人員進(jìn)行協(xié)助,NLP自身的發(fā)展也尚不足以滿(mǎn)足ZSL的需要,使得整體進(jìn)程相對(duì)緩慢。
這些桎梏不解決,ZSL即便具備從零起點(diǎn)到學(xué)霸的潛力,也只能入寶山而空回,被不如它的算法搶走工作機(jī)會(huì)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!