AI PM老司機(jī)告訴你:如何評測聲紋識別系統(tǒng)?

4 評論 6401 瀏覽 20 收藏 8 分鐘

當(dāng)我在和別人介紹聲紋識別的時候,大家總會有各種疑問,聲紋識別準(zhǔn)確率怎樣?感冒了能識別出來嗎?故意變聲能否識別?模仿別人的聲音能否識別?被人錄音了是否就能用于驗證?問題大同小異,總結(jié)起來一句話,這玩意靠譜么?

當(dāng)你準(zhǔn)備在你的產(chǎn)品上增加聲紋識別這一黑科技的時候,你除了需要清楚知道聲紋識別能做什么之外,還需要了解它能做到什么程度。在原來的文章中科普了聲紋識別這一黑科技的知識(見:《AI PM老司機(jī)帶你認(rèn)識聲音黑科技:聲紋識別》),里面也提到聲紋識別算法的技術(shù)指標(biāo),除了這部分常規(guī)技術(shù)指標(biāo)外,本文重點介紹聲紋識別在實際應(yīng)用場景中的性能指標(biāo):

  • 環(huán)境噪音魯棒性
  • 信道魯棒性
  • 語音內(nèi)容魯棒性
  • 時變魯棒性
  • 表達(dá)方式魯棒性
  • 群體普適性
  • 假冒攻擊防范能力

1. 環(huán)境噪音魯棒性

不同場景下的產(chǎn)品都會有不同的環(huán)境噪音,即使是同一產(chǎn)品也會有不同的背景環(huán)境,比如智能音箱,在家庭使用和在公司使用,環(huán)境噪音也會不一樣,在使用聲紋識別前需要對這一黑科技的環(huán)境噪音魯棒性進(jìn)行評估,這一指標(biāo)表明此技術(shù)在不同環(huán)境噪音下的適應(yīng)能力,避免在公司調(diào)試時都是好好的,一到用戶環(huán)境就不靈光了。為了測試聲紋識別系統(tǒng)的環(huán)境噪音魯棒性,可以收集產(chǎn)品在不同應(yīng)用環(huán)境下的語音數(shù)據(jù)進(jìn)行評測。

2. 信道魯棒性

信道即為聲音信號傳輸?shù)耐ǖ?,由于聲音從麥克風(fēng)采集后到聲紋識別系統(tǒng)中經(jīng)過了很多環(huán)節(jié),包括有不同的麥克風(fēng)類型、不同的音頻CODEC、不同的傳輸通道等,這些都會對聲紋特征存在影響,還是以智能音箱來舉例,假如在注冊時是用手機(jī)端app,而驗證使用時則是直接對著音箱說話,手機(jī)MIC和音箱MIC就是兩個不同的信道,這種情況下可能會降低驗證的準(zhǔn)確率,在專業(yè)術(shù)語上叫信道失配。因此,除了在產(chǎn)品層面做規(guī)避,也需要考慮聲紋識別技術(shù)在不同信道中的表現(xiàn)。

3. 語音內(nèi)容魯棒性

我們說話內(nèi)容都可能包含了數(shù)字 、中文、英文,在讀特定內(nèi)容和說口頭禪的時候,我們會不自覺表現(xiàn)不一樣的說話方式,比如說口頭禪或熟悉的話時就會表現(xiàn)得很自然隨意,而拿著文稿照著念時,就顯得一本正經(jīng)。在做聲紋識別技術(shù)評估時,也需要考慮到對語音內(nèi)容的魯棒性。

4. 時變魯棒性

個體變化通過長時的積累,會對個體的發(fā)音有特點有影響,進(jìn)而影響聲紋識別系統(tǒng)的識別性能。好的聲紋識別系統(tǒng)能在一年,甚至在三年內(nèi)都不需要重新注冊而能正常使用,否則你可能會遇到,三個月前注冊了聲紋用著都是好好的,三個月后怎么就不認(rèn)人了呢,這就尷尬了。

5. 表達(dá)方式魯棒性

說話人的表達(dá)方式對聲紋識別的性能也有影響,比如情感的變化、語速的變化、音量的變化和聊天的區(qū)別。還是以智能音箱為例,你在注冊聲紋時是很開心的,當(dāng)有一天,你心情不好想和TA聊天時,卻怎么也不認(rèn)你了,這時你砸了TA的心都有了。同樣,在做聲紋識別評估時都需要考慮到在不同表達(dá)方式下的表現(xiàn)。

6. 群體普適性

群體是具有某種(些)共同特征的不同個體組成的集合。不同群體之間存在某些特征的差異,聲音上的差異就是其中之一,這種差異會影響聲紋識別系統(tǒng)的普適性。這種差異主要體現(xiàn)在性別、年齡、地域劃分的不同人群人聲紋差異。

7. 假冒攻擊防范能力

今年315用照片直接攻破人臉識別系統(tǒng)的事仍讓大家對生物識別系統(tǒng)有所擔(dān)心,同樣,聲紋識別系統(tǒng)在用聲音進(jìn)行身份認(rèn)證的過程中,也會存在用假冒聲音來企圖騙過系統(tǒng),因此,聲紋識別系統(tǒng)應(yīng)具備活體檢測技術(shù),應(yīng)正確鑒別聲音的用戶身份,能夠拒絕假冒的驗證信息,對于利用各種手段形成的假冒聲音,應(yīng)該能正確區(qū)分。

假冒聲音包括通過如下幾種方式生成的聲音,聲紋識別系統(tǒng)應(yīng)提供對如下幾種攻擊的防范能力。

7.1.波形拼接攻擊

攻擊者將目標(biāo)說話人的語音錄制下來,通過波形編輯工具,拼接出指定內(nèi)容的語音數(shù)據(jù),以放音的方式假冒目標(biāo)說話人,試圖以目標(biāo)人身份通過聲紋識別系統(tǒng)的認(rèn)證。

7.2.錄音重放攻擊

攻擊者錄制目標(biāo)說話人的語音進(jìn)行播放,以目標(biāo)人身份試圖通過聲紋識別系統(tǒng)的認(rèn)證。

7.3.語音合成攻擊

攻擊者用語音合成技術(shù)生成目標(biāo)說話人的語音,以放音的方式假冒目標(biāo)說話人,試圖以目標(biāo)人的身份通過聲紋識別系統(tǒng)的認(rèn)證,

7.4.語音轉(zhuǎn)換攻擊

攻擊者用語音轉(zhuǎn)換技術(shù)得到目標(biāo)說話人的語音,以放音的方式假冒目標(biāo)說話人,試圖以目標(biāo)說話人的身份通過聲紋識別系統(tǒng)進(jìn)行的認(rèn)證,

7.5.語音模仿攻擊

攻擊者通過模仿目標(biāo)說話人,試圖以目標(biāo)說話人的身份通過聲紋識別系統(tǒng)的認(rèn)證。

8. 總結(jié)

聲紋除存在個體差異外,個體的生理特征和使用環(huán)境的變化也會對其特性造成一定影響,聲紋識別系統(tǒng)在上述各種條件下的魯棒性是在實際應(yīng)用中必須考慮的。

當(dāng)你面對多家聲紋識別廠家時,你需要考慮這廠家的技術(shù)與你的應(yīng)用場景是否匹配,正如世間妹紙帥哥那么多,你要找的,不是最好的那位,而是最合適的那位。

 

作者:Micos,昵稱:不知道,在人工智能浪潮中推波助瀾的產(chǎn)品經(jīng)理,致力于用智能語音實現(xiàn)人與機(jī)器最自然的交互方式。

本文由 @Micos 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自pixabay,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 您好,我是一個小白AI產(chǎn)品,您的兩篇關(guān)于聲紋的文章,我想縮寫簡略之后,放在我的小號uxeason上,只是作為小白做的一些功課輸出,沒有商業(yè)利益輸送。我在文末會注明您的知乎和本站的專欄名稱,閱讀原文加上這篇連接。今天有點晚,我一般早起推送,冒昧的先發(fā)出去了,如果您覺得不妥,請留言,我會第一時間刪除。打擾了。

    來自北京 回復(fù)
  2. 這是我讀過的最魯棒的文章??

    回復(fù)
  3. 臥槽。遇到聲紋同行真驚喜

    來自福建 回復(fù)
    1. 一起勾搭 ??

      來自廣東 回復(fù)