怎樣用聲紋識別,提升智能硬件產(chǎn)品的用戶體驗?

4 評論 6530 瀏覽 58 收藏 12 分鐘

本文將談?wù)勗谥悄芤粝洹⒅悄軝C器人等此類以語音為主要交互方式的智能硬件產(chǎn)品中,除了提升語音識別準確率、語義理解效果外,怎樣使用聲紋識別來進一步提升用戶體驗,讓智能產(chǎn)品更加智能。

一、背景

當前智能硬件產(chǎn)品中,最耀眼的莫過于百箱大戰(zhàn)的智能音箱、百“機”爭鳴的智能機器人,這些智能語音產(chǎn)品已逐漸走進百姓的視線中。

在智能音箱市場中,且不說國外的Amason Echo和Google Home,僅在國內(nèi),去年雙十一,天貓精靈99元跳樓價賣了一百萬臺,還有鋪天蓋地而來的小愛同學(xué)、叮咚音箱、小雅同學(xué)、出門問問等。

今年,百度推出比天貓精靈還低10元的小度智能音箱,僅賣89元,燒錢大戰(zhàn)一個比一個狠。在智能機器人市場也同樣打得火熱,這類智能音箱和智能機器人最明顯的特點,就是采用了語音作為全新的交互方式,力圖打造更接近于人與人交流的方式。

然而,大部分智能語音產(chǎn)品只能識別出說話的內(nèi)容,對于相同的問題都會給出相同的反饋信息。雖然交互方式是智能的,但交流方式仍然不夠智能。

所謂交流,即有明確對象,和不同對象交流應(yīng)有不同的回應(yīng),聞聲即可識人,這才是更智能的體驗。聲紋識別,正是可以實現(xiàn)這種聞聲識人的技術(shù)手段。

本文將談?wù)勗谥悄芤粝?、智能機器人等此類以語音為主要交互方式的智能硬件產(chǎn)品中,除了提升語音識別準確率、語義理解效果外,怎樣使用聲紋識別來進一步提升用戶體驗,讓智能產(chǎn)品更加智能。

二、應(yīng)用場景

場景是需求的靈魂,拋開場景談需求都是耍流氓!

我們先對場景分分類,聲紋識別作為身份驗證的一種手段,根據(jù)不同的安全性要求,我們將應(yīng)用場景分非關(guān)鍵應(yīng)用場景和關(guān)鍵應(yīng)用場景。

  • 非關(guān)鍵應(yīng)用場景:即那些對安全性要求不高,即使誤識也不會產(chǎn)生明顯不良影響,但對用戶體驗要求較高的場合,如:猜猜說話人是誰、個性化的服務(wù)推薦(歌曲推薦、餐廳推薦等);
  • 關(guān)鍵應(yīng)用場景:這類應(yīng)用場景有明顯的安全性要求,不能容忍有誤識情況,誤識會帶來明顯的不良影響,如:一些重要的權(quán)限控制(家電開關(guān)控制等)、聲音購物支付等,這類型場景會犧牲一部分用戶體檢以保證安全性,畢竟魚和熊掌不可兼得!

三、應(yīng)用設(shè)計

聲紋識別在應(yīng)用上分為注冊和驗證兩個流程,如下圖所示:

在智能音箱和智能機器人(家庭陪伴機器人)的產(chǎn)品中,聲紋識別其實就是1:N的應(yīng)用(N的值一般小于10),音箱和機器人一般都會有一個名字,即喚醒詞,就如同人的名字一樣,以下設(shè)計我們暫且給智能硬件起個名字叫“你好同學(xué)”。

1. 聲紋注冊流程設(shè)計

聲紋注冊是開啟聞聲識人的第一步,注冊者先說幾句話,系統(tǒng)自動將其中的聲紋特征提取出來作為說話人身份的ID,這個過程如同像陌生人做自我介紹一樣,介紹完大家就認識你了。

雖然聲紋注冊流程必不可少,但產(chǎn)品設(shè)計上卻希望這個流程越簡單越好,最好是不需要注冊這個環(huán)節(jié)(當然這是不可能的!?。。?。

在做注冊流程設(shè)計前,我們先搞清幾個問題:

(1)注冊入口在哪里?

目前的智能語音產(chǎn)品在交互方式上,除了用語音,還會分為帶顯示屏和不帶顯示屏,即有部分帶有視覺交互。

所以,注冊入口可分為三種:

  1. 直接在設(shè)備上使用語音方式作為注冊入口,即直接對設(shè)備說:你好同學(xué),我要注冊聲紋;
  2. 在設(shè)備配套的APP上設(shè)置注冊入口,適合無屏的設(shè)備;
  3. 在設(shè)備自帶的屏幕上設(shè)置注冊入口,類似APP方式。

(2)在哪里采集注冊錄音?

對于注冊入口在APP上的情況,我們需要搞清楚錄音采集是在設(shè)備上,還是在手機上。

一般來說,無論注冊入口在哪里,最終的驗證入口都是在設(shè)備上,為了避免在不同設(shè)備上錄音效果不一樣,造成驗證準確率下降(我們叫這種現(xiàn)象叫信道失配,即注冊信道與驗證信道不一致而帶來的準確率下降的現(xiàn)象),我們會直接在設(shè)備上進行注冊錄音的采集。

當然,你非得在APP上錄音,也是可以的,呵呵!

(3)非關(guān)鍵應(yīng)用和關(guān)鍵應(yīng)用是否需要單獨注冊?

理論上來說,注冊語音越長,識別效果越好,但也需要考慮到用戶體驗。所以,我們可以將注冊流程設(shè)計為基礎(chǔ)注冊+加強注冊,其中基礎(chǔ)注冊滿足非關(guān)鍵應(yīng)用場景,加強注冊主要是考慮到關(guān)鍵應(yīng)用場景的安全性問題。

(4)聲紋注冊上還有哪些需考慮的點?

智能音箱和機器人一般都是遠場語音應(yīng)用,交互距離最大可達5米,同時也覆蓋了近場語音,所以在說話人離設(shè)備的距離不同時,采集的語音質(zhì)量也會存在差異。對語音識別來說可能不會有太多的影響,但對于聲紋識別來說,會造成聲紋特征的損失。所以在注冊時還需要考慮不同距離,比如:0.5米、3米、5米等。

另外,還需要考慮說話的音量、語速等因素,相信隨著識別算法的提升,這些因素都將不會成為產(chǎn)品設(shè)計的考慮點。

(5)聲紋注冊有哪些表現(xiàn)形式?

在注冊的表現(xiàn)形式上,可分為兩種:

  1. 引導(dǎo)式注冊:根據(jù)界面或語音提示,引導(dǎo)用戶一步一步進行注冊,這是最為常用的方式,也是目前最合適的方式。
  2. 無感知注冊:即不需要指定用戶執(zhí)行注冊流程即可完成聲紋注冊,打破常規(guī)的聲紋注冊-聲紋驗證的應(yīng)用流程,在使用過程中自動完成聲紋注冊,直接實現(xiàn)“聽聲辨人”,最大限度提升用戶體驗。我們下次再來詳細講一下這種無感知注冊。

2. 聲紋注冊流程

3. 原型設(shè)計參考

以帶屏設(shè)備上或APP上注冊為例,原型僅供參考,在真實項目中仍需要考慮更多的交互細節(jié)。對于注冊內(nèi)容,一般建議使用“喚醒詞+常用短語”的方式。當然,如果追求更簡潔的注冊方式,也可以只讀兩次喚醒詞。

4. 聲紋驗證流程設(shè)計

在聲紋驗證環(huán)節(jié),一般通過純語音交互來完成,我們按非關(guān)鍵應(yīng)用場景和關(guān)鍵應(yīng)用場景來設(shè)計。

(1)非關(guān)鍵應(yīng)用場景驗證

最常用的自我身份驗證:對設(shè)備說出“你好同學(xué),猜猜我是誰”或“你好同學(xué),我是誰”,設(shè)備根據(jù)聲紋識別結(jié)果回應(yīng)說話人,比如:設(shè)備回應(yīng):哎喲,你就那玉樹臨風(fēng)、風(fēng)流倜儻、迷死萬千少女兼大媽的彭魚宴。

非關(guān)鍵應(yīng)用場景有非常多的玩法,主要圍繞不同身份的個性化推薦來設(shè)計,具體大家可以根據(jù)實際產(chǎn)品及場景需求來思考。

另外,對于帶屏的設(shè)備,一般都會具備攝像頭,可以實現(xiàn)人臉識別功能。有些廠家可能會將人臉和聲紋結(jié)合起來做身份驗證,這種多維度驗證確實能提高安全性,但建議只在關(guān)鍵應(yīng)用場景下使用兩者作為驗證手段,在非關(guān)鍵應(yīng)用場景中只使用聲紋識別。畢竟如果每次問機器人我是誰時,還要自己找到攝像頭正面看一會才能識別出身份,這樣的體驗非常不好。

(2)關(guān)鍵應(yīng)用場景驗證

此場景中,需要考慮二次身份核驗,即在喚醒時已做一次身份識別,在說話人做出關(guān)鍵操作確定后,比如:確定購買商品,需要進行身份核驗。

由于是純語音交互,考慮到安全性,可采用讀4位隨機數(shù)字或喚醒詞的方式來驗證,此種情況下聲紋識別必須具備活體檢測功能,以防止通過錄音的方式來假冒說話人聲音。

(3)驗證流程設(shè)計(實際流程遠比這個復(fù)雜)

四、未來應(yīng)用

雖然目前的智能硬件仍在不斷完美語音識別和語義理解的效果,然而,我們相信增加聲紋識別必定會大大提升智能設(shè)備的使用體驗,同時亦可增加情緒識別、性別識別、年齡識別,讓機器更懂你。

正如電影“her”中的薩曼莎,語音交互水平已達到了強人工智能水平,比與人類交互效果更好。因為her可以在一秒內(nèi)檢索完主人所提問題關(guān)聯(lián)到相關(guān)知識信息,以更好給出回答,這是人類所不能達到的。要達到人類期望值中的語音交互效果,就必須讓設(shè)備能夠:聽得清、聽得懂、學(xué)得會、說得出。

期待“her”的出現(xiàn)?。。?/p>

 

作者:Micos,在人工智能浪潮中推波助瀾的產(chǎn)品經(jīng)理,致力于用智能語音實現(xiàn)人與機器最自然的交互方式。

本文由 @Micos 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 寫得很深入。感謝分享

    回復(fù)
  2. 呃…寫的挺認真的,可是進來后感覺文不對題。實際沒有講怎樣用聲紋識別提升智能硬件產(chǎn)品的使用體驗,像是介紹聲紋識別的流程和交互。

    來自廣東 回復(fù)
    1. 本來文末附了一篇文章鏈接,編輯刪掉了,你可以多了解一下相關(guān)的文章。

      來自廣東 回復(fù)