視覺語音分離模型,解決“雞尾酒會(huì)效應(yīng)”
如何在酒會(huì)上分辨出特定人物的聲音?這對(duì)于我們?nèi)祟悂碚f十分簡(jiǎn)單,但當(dāng)許多的聲音交疊在一起時(shí),常讓AI錯(cuò)手不及。那如果攻破了“雞尾酒會(huì)”難題,人聲分離給生活帶來了哪些改變?
試想一下,在一個(gè)嘈雜的雞尾酒會(huì)上,同時(shí)存在著許多不同的聲源:多個(gè)人同時(shí)說話的聲音、餐具的碰撞聲、音樂聲等等。
如何在酒會(huì)上分辨出特定人物的聲音?這對(duì)于我們?nèi)祟悂碚f十分簡(jiǎn)單。但對(duì)于計(jì)算機(jī)來說,要把一個(gè)音頻信號(hào)分割成多個(gè)不同的語音來源,依然有許多棘手的問題需要解決。當(dāng)許多人的語音交疊在一起的時(shí)候,AI時(shí)常措手不及。
1953年Cherry提出“雞尾酒會(huì)”問題至今,仍然沒有人能夠解決機(jī)器深度學(xué)習(xí)識(shí)別分離人聲的問題。
但是,近日在GoogleResearch?軟件工程師?Inbar?Mosseri?和Oran?Lang?發(fā)表的論文《Looking?to?Listen?at?the?CocktailParty》中,采用了一個(gè)全新的視聽模型為“雞尾酒會(huì)”問題提供了一個(gè)合適的解決之道。
音頻-視覺語音分離模型,解決“雞尾酒會(huì)效應(yīng)”
為了解決“雞尾酒會(huì)”問題,谷歌從YouTube上搜尋了10萬個(gè)高質(zhì)量講座和演講視頻生成訓(xùn)練樣本,通過約2000?個(gè)小時(shí)的視頻片段分析,訓(xùn)練出基于多流卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型,將合成雞尾酒會(huì)片段分割成視頻中每個(gè)說話者的單獨(dú)音頻流。
該試驗(yàn)中,輸入是一名或多名發(fā)聲對(duì)象,同時(shí)被其他對(duì)象或嘈雜背景所干擾的視頻。輸出的是將輸入視頻的音軌分解成純凈的音軌,并對(duì)應(yīng)上相應(yīng)的說話者。
所謂的音頻-視覺語音分離模型,就是加強(qiáng)選中人的語音,同時(shí)減弱同一時(shí)間其他人的音量。該方法適用于具有單一(主)音軌的常見視頻,用戶也可以自行選擇傾聽對(duì)象來生成對(duì)其的單一音軌,或者基于語境由算法進(jìn)行對(duì)特定發(fā)聲對(duì)象進(jìn)行選擇。
而在模型訓(xùn)練過程中,網(wǎng)絡(luò)系統(tǒng)(分別)學(xué)習(xí)了視覺和音頻信號(hào)的編碼,然后將它們?nèi)诤显谝黄鹦纬梢粋€(gè)音頻-視覺表現(xiàn)。通過這種表現(xiàn),網(wǎng)絡(luò)系統(tǒng)可以學(xué)會(huì)為每位發(fā)聲對(duì)象對(duì)應(yīng)輸出時(shí)頻掩碼。輸出的時(shí)頻掩碼與噪聲輸入頻譜圖相乘,隨后轉(zhuǎn)換成時(shí)域波形,從而形成每一位說話者單獨(dú)純凈的音頻信號(hào)。
基于神經(jīng)網(wǎng)絡(luò)模型架構(gòu)
此外,在多人發(fā)聲的場(chǎng)景下,視覺信號(hào)除了有效提升語音分離的質(zhì)量,還可以把分離之后的音軌和視頻里的人物對(duì)應(yīng)起來,此種方式為其后的語音識(shí)別領(lǐng)域提供了許多的可能性。
解決“雞尾酒會(huì)效應(yīng)”這一難題意味著什么?
“雞尾酒會(huì)效應(yīng)”難題的解決,為語音識(shí)別領(lǐng)域的許多問題提供了思考路徑,同時(shí)視覺-音頻網(wǎng)絡(luò)識(shí)別系統(tǒng)的提出,也為人聲分離提供了視覺+聽覺的解決方式。隨著技術(shù)落地,當(dāng)人聲分離技術(shù)真正應(yīng)用于市場(chǎng)中會(huì)對(duì)產(chǎn)品有哪些改變呢?
筆者認(rèn)為,其在以下四個(gè)方面會(huì)有較大突破:
1. 人聲分離助力CC(隱藏式字幕)發(fā)展
隱藏字幕(Closed?Captioning)是電視節(jié)目和電影中為有特殊情況或者需要的觀眾準(zhǔn)備的字幕,其可以起到用解釋性語言描述畫面的作用。
Caption?這個(gè)詞,有輔助聽力障礙的人士用意。Caption一般還包含了效果音的提示,這些聲音正常人可以分辨,而對(duì)于障礙人士則必須通過字幕。
比如:美國的「流言終結(jié)者」節(jié)目,除了可以看到「TV?PG」分級(jí)標(biāo)簽以外,也顯示了?CC?標(biāo)志表明節(jié)目提供隱藏式字幕,以此來服務(wù)那些需要特殊幫助的群體。
《流言終結(jié)者》
同樣,谷歌人聲分離技術(shù)對(duì)于促進(jìn)CC發(fā)展有較大前景。多通道系統(tǒng)中對(duì)于特定人聲的分離能夠簡(jiǎn)化節(jié)目、電影制作流程,其在語音識(shí)別的預(yù)處理,以及視頻字幕方面能產(chǎn)生良好效果。
對(duì)于視頻自動(dòng)字幕加載系統(tǒng)而言,多名發(fā)生者同時(shí)發(fā)聲導(dǎo)致的語音重疊現(xiàn)象是一項(xiàng)已知的挑戰(zhàn),與此同時(shí),將音頻分離至不同的源也有助于呈現(xiàn)更加準(zhǔn)確和易讀的字幕。
人聲分離技術(shù)可以在語音原聲的基礎(chǔ)上直譯出各個(gè)對(duì)話主題的聲音,并將其分開,利用AI實(shí)現(xiàn)字幕自動(dòng)化,這極大程度上保證了字幕的同步性與準(zhǔn)確性。
2. 人聲分離降低AI同傳“烏龍率”
在2018年博鰲論壇上,騰訊AI同傳搞了一個(gè)大烏龍。除了翻譯不準(zhǔn)確的問題意外,現(xiàn)場(chǎng)還被曝光翻譯系統(tǒng)崩潰“抽風(fēng)”,出現(xiàn)亂碼的情況,讓現(xiàn)場(chǎng)相當(dāng)尷尬。
騰訊AI同傳的“車禍”現(xiàn)場(chǎng)
事后,騰訊指出:出現(xiàn)此種烏龍的原因在于中英雙語切換頻率的問題,當(dāng)聲源在兩種語言之間不斷轉(zhuǎn)換時(shí),后臺(tái)中、英文識(shí)別引擎就會(huì)同時(shí)開始工作,這會(huì)導(dǎo)致兩種識(shí)別引擎互相“掐架”,語音識(shí)別混亂。最終翻譯結(jié)果只能選擇一種語言進(jìn)行輸出,導(dǎo)致引發(fā)錯(cuò)誤。
而人聲分離技術(shù)的應(yīng)用,似乎為AI同傳中的人聲識(shí)別提供了一個(gè)有效的解決途徑。對(duì)于多種語言的識(shí)別流暢化后,AI同傳的質(zhì)量也相應(yīng)會(huì)得到一定的提高。
3. 或可為智能音響提供“保險(xiǎn)箱”
AI人聲分離加強(qiáng)智能音響識(shí)別精準(zhǔn)度
智能音箱的問世,使得普通家庭進(jìn)入了語音互動(dòng)的時(shí)代,其使用的簡(jiǎn)易性甚至超過了智能手機(jī)。有業(yè)者認(rèn)為:智能音箱將會(huì)取代智能手機(jī),成為家庭自動(dòng)化或者智能家居生活的入口,自然語言對(duì)話將成為主流和高效率的用戶界面。
與此同時(shí),智能音響在應(yīng)用過程中,也面臨著諸多挑戰(zhàn),其主要體現(xiàn)在語音識(shí)別技術(shù)、聲紋識(shí)別等諸種技術(shù)上。目前,智能音箱的技術(shù)難題在于語音識(shí)別技術(shù)如何在嘈雜的環(huán)境中識(shí)別語音指令——包括酒吧和體育場(chǎng)等人聲鼎沸的場(chǎng)景。
為此,微軟在Xbox上部署了一款名為Voice?Studio的應(yīng)用,專門收集人們?cè)谕嬗螒蚧蚩措娪皶r(shí)的對(duì)話信息。為了吸引用戶貢獻(xiàn)自己在玩游戲過程中的對(duì)話內(nèi)容,該公司為參與其中的用戶提供了各種各樣的獎(jiǎng)勵(lì),包括點(diǎn)卡和游戲道具。
但是,效果并不盡如人意。如何在嘈雜環(huán)境識(shí)別人聲?如何分別多人聲音依然是智能音箱的難題?
日后,隨著智能家居的普及,智能音響成為了物聯(lián)網(wǎng)環(huán)境下與其他家居溝通的“鑰匙”,而AI人聲分離技術(shù)的應(yīng)用,攻克技術(shù)問題的同時(shí)也為智能音響提供了一個(gè)安全性較強(qiáng)的“保險(xiǎn)箱”。
4. 為無人駕駛提供仿生啟示
“雞尾酒會(huì)效應(yīng)”在動(dòng)物界的應(yīng)用為無人駕駛提供一定啟示。以蝙蝠躲避障礙和捕食為例,其在飛行過程中會(huì)發(fā)射一系列超聲波,超聲波遇到障礙后反射回來,蝙蝠通過感知反射信號(hào)到達(dá)兩耳的時(shí)間差來判斷障礙物的方向,通過感知反射信號(hào)的強(qiáng)度來判斷障礙物的距離。
蝙蝠發(fā)出的超聲信號(hào)一般是在110kHz的一個(gè)掃頻信號(hào),通過感知不同頻率信號(hào)的衰減程度,就可以辨別障礙物的材質(zhì),進(jìn)而可以判斷障礙物是否為捕食對(duì)象。
蝙蝠是如何區(qū)分自己和他人發(fā)出的超聲波信號(hào)的呢?
科學(xué)家通過研究發(fā)現(xiàn):蝙蝠并沒有改變發(fā)出的超聲頻率,而是通過叫聲變大,持續(xù)時(shí)間變長,發(fā)射頻率增多等方式來解決的。
動(dòng)物界的“雞尾酒會(huì)效應(yīng)”啟示無人駕駛:想提高雷達(dá)的定位精度,提高信噪比是根本。
比如:蝙蝠叫聲變大,相當(dāng)于提高了信號(hào)的能量;而叫聲持續(xù)時(shí)間變長和叫聲頻率增多,則是增加了信號(hào)的樣本點(diǎn)數(shù)。在噪聲不相關(guān)的情況下,經(jīng)過簡(jiǎn)單的平均就可以降低噪聲的影響。
這一點(diǎn),將會(huì)為機(jī)器人和無人駕駛汽車帶來了新的啟發(fā)。
無人駕駛的激光雷達(dá)探測(cè)
此外,視覺-音頻語音識(shí)別分離模型應(yīng)用于無人駕駛領(lǐng)域能大程度提高雷達(dá)、激光等距離傳感器測(cè)量出路面信息的性能,而這正是無人駕駛安全保障的基礎(chǔ)。
隨著日后無人駕駛的普及,人聲分離模式或可衍生出“雷聲分離”,將雷達(dá)誤收風(fēng)險(xiǎn)降到最低,從而保證無人駕駛障礙識(shí)別方面的安全性。
誠然,新技術(shù)的應(yīng)用需要一段時(shí)間。谷歌官方目前也表示:
“正在探索使用這個(gè)技術(shù)到谷歌系列產(chǎn)品中去”
隨著“雞尾酒會(huì)”難題的解決,AI語音識(shí)別將會(huì)有長足進(jìn)展。具體投入產(chǎn)品后表現(xiàn)怎樣,還需要市場(chǎng)來檢驗(yàn)。
作者:柯鳴,微信公眾號(hào):智能相對(duì)論
本文由 @智能相對(duì)論 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CCO協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!