亚洲国产精品久久电影欧美，国产性爱精品在线观看，中文字幕日本有码视频在线，国产AV大学生情侣AV浪潮，亚洲无码高清不卡，久久极品免费视频，精品国产天天色，国产片婬乱一级毛片影片

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

超全面的語(yǔ)音交互知識(shí)總結(jié)：從原理、場(chǎng)景到趨勢(shì)

Smart_Byte

2019-08-13

1 評(píng)論 21799 瀏覽 106 收藏

27 分鐘

2019年全球語(yǔ)音交互市場(chǎng)規(guī)模達(dá)到13億美元，預(yù)計(jì)2025年全球語(yǔ)音交互市場(chǎng)規(guī)模將69億美元，目前以廣泛應(yīng)用到智能家居、車載語(yǔ)音、智能客服等行業(yè)和場(chǎng)景。筆者從事語(yǔ)音交互產(chǎn)品一年有余，針對(duì)語(yǔ)音交互的概念定義、優(yōu)劣勢(shì)、適用場(chǎng)景和產(chǎn)品、未來(lái)發(fā)展等進(jìn)行梳理總結(jié)。

1. 什么是語(yǔ)音交互？

語(yǔ)音交互（VUI）指的是人類與設(shè)備通過(guò)自然語(yǔ)音進(jìn)行信息的傳遞。一次完整的語(yǔ)音交互需要經(jīng)歷ASR→NLP→Skill→TTS的流程：
超全面的語(yǔ)音交互知識(shí)總結(jié)：從原理、場(chǎng)景到趨勢(shì)

（1）ASR

用于將聲學(xué)語(yǔ)音進(jìn)行分析，并得到對(duì)應(yīng)的文字或拼音信息。語(yǔ)音識(shí)別系統(tǒng)一般分訓(xùn)練和解碼兩階段：

訓(xùn)練即通過(guò)大量標(biāo)注的語(yǔ)音數(shù)據(jù)訓(xùn)練數(shù)學(xué)模型，通過(guò)大量標(biāo)注的文本數(shù)據(jù)訓(xùn)練語(yǔ)言模型；
解碼，即通過(guò)聲學(xué)和語(yǔ)言模型將語(yǔ)音數(shù)據(jù)識(shí)別成文字。

聲學(xué)模型可以理解為是對(duì)發(fā)生的建模，它能夠把語(yǔ)音輸入轉(zhuǎn)換成聲學(xué)表示的輸入，更準(zhǔn)確的說(shuō)是給出語(yǔ)音屬于某個(gè)聲學(xué)符號(hào)的概率。語(yǔ)言模型的作用可以簡(jiǎn)單理解為消解多音字問(wèn)題，在聲學(xué)模型給出發(fā)音序列之后，從候選的文字序列中找出概率最大的字符串序列。

（2）NLP

用于將用戶的指令轉(zhuǎn)換為結(jié)構(gòu)化的、機(jī)器可以理解的語(yǔ)言。NLP的工作邏輯是：將用戶的指令進(jìn)行Domain（領(lǐng)域）→Intent（意圖）→Slot（詞槽）三級(jí)拆分。

以“幫我設(shè)置一個(gè)明天早上8點(diǎn)的鬧鐘”為例：該指令命中的領(lǐng)域是“鬧鐘”，意圖是“新建鬧鐘”，詞槽是“明天8點(diǎn)”。這樣，就將用戶的意圖拆分成機(jī)器可以處理的語(yǔ)言。

（3）Skill

也即AI時(shí)代的APP。Skill的作用就是：處理NLP界定的用戶意圖，做出符合用戶預(yù)期的反饋。

（4）TTS

即語(yǔ)音合成，從文本轉(zhuǎn)換成語(yǔ)音，讓機(jī)器說(shuō)話。TTS業(yè)內(nèi)普遍使用兩種做法：一種是拼接法，一種是參數(shù)法。

拼接法即從事先錄制的大量語(yǔ)音中，選擇所需的基本發(fā)音單位拼接而成。優(yōu)點(diǎn)是語(yǔ)音的自然度很好，缺點(diǎn)是成本太高，費(fèi)用成本要上百萬(wàn)。參
數(shù)法指使用統(tǒng)計(jì)模型來(lái)產(chǎn)生語(yǔ)音參數(shù)并轉(zhuǎn)化成波形。優(yōu)點(diǎn)是成本低，一般價(jià)格在20萬(wàn)~60萬(wàn)不等，缺點(diǎn)是發(fā)音的自然度沒(méi)有拼接法好。但是隨著模型的不斷優(yōu)化，現(xiàn)在參數(shù)法的效果已經(jīng)非常好了，因此業(yè)內(nèi)使用參數(shù)法的越來(lái)越多。

超全面的語(yǔ)音交互知識(shí)總結(jié)：從原理、場(chǎng)景到趨勢(shì)

2. 語(yǔ)音交互有哪些優(yōu)劣勢(shì)？

PART 1: 語(yǔ)音交互的優(yōu)勢(shì)

優(yōu)勢(shì)1：信息傳遞效率高

百度語(yǔ)音開放平臺(tái)的研究結(jié)果顯示，相比于傳統(tǒng)的鍵盤輸入，語(yǔ)音輸入方式在速度及準(zhǔn)確率方面更具優(yōu)勢(shì)。利用語(yǔ)音輸入英語(yǔ)和普通話的速度分別是傳統(tǒng)輸入方式的3.24倍和3.21倍，信息傳遞效率進(jìn)一步可拆分為4類：

檢索高效：針對(duì)復(fù)雜的輸入詞，尤其是在輸入方式不便的場(chǎng)景下，語(yǔ)音交互更高效。例如電視場(chǎng)景下進(jìn)行電影搜索。
跨空間便捷：遠(yuǎn)場(chǎng)語(yǔ)音交互可以跨3~5米進(jìn)行交流，針對(duì)需要跨空間的操作，語(yǔ)音交互更高效，例如：智能家居控制。
跨場(chǎng)景便捷：語(yǔ)音交互的潛在好處時(shí)可以根據(jù)說(shuō)話內(nèi)容自動(dòng)判斷意圖場(chǎng)景，在需要頻繁跨場(chǎng)景交互的場(chǎng)景下語(yǔ)音交互更高效。
支持組合指令：語(yǔ)音交互可以一次性下達(dá)多條指令，然后分別執(zhí)行，在需要支持多意圖同時(shí)傳遞的場(chǎng)景下語(yǔ)音交互更高效。假設(shè)你今晚想要看一部電影，你可以選擇說(shuō)：“播放劉德華的電影電影要四星以上并且是免費(fèi)觀看的?！?/li>

優(yōu)勢(shì)2：解放雙手和雙眼

通過(guò)語(yǔ)言交互可以將手和眼睛空起來(lái)處理其他事情，在需要多感官協(xié)同的場(chǎng)景下效率更高。例如：車載場(chǎng)景通過(guò)語(yǔ)音點(diǎn)播音樂(lè)，醫(yī)療場(chǎng)景醫(yī)生在溝通病情的同時(shí)記錄病歷，工業(yè)場(chǎng)景在雙手占用的同時(shí)下達(dá)指令。

優(yōu)勢(shì)3：使用門檻低

非文字使用者友好：人類是先有語(yǔ)音再有文字，每個(gè)人都會(huì)說(shuō)話但有一部分人不會(huì)寫字，針對(duì)老人、小孩、失明的人群，無(wú)法使用文字交互，語(yǔ)音交互會(huì)為其帶來(lái)極大的便利。
學(xué)習(xí)成本低：語(yǔ)音交互更自然，在非復(fù)雜場(chǎng)景下，語(yǔ)音交互比界面交互更自然，上手成本更低。

優(yōu)勢(shì)4：傳遞聲學(xué)信息

聲紋識(shí)人：通過(guò)聲紋可以進(jìn)行身份判斷，并且可以在下達(dá)指令的同時(shí)進(jìn)行身份判斷，效率更高。同時(shí)聲音還可以判斷性別、年齡層、情緒等信息。
聲音傳遞情感：聲音交互可以傳遞情感，因此在有情感訴求的場(chǎng)景下，聲音是一個(gè)很好的選擇。

PART 2：語(yǔ)音交互的劣勢(shì)

劣勢(shì)1：信息接收效率低

語(yǔ)音輸出是線性的，當(dāng)別人說(shuō)話時(shí)，你可能得等全部說(shuō)完后才能理解，無(wú)法像文字一樣可以跳過(guò)閱讀；語(yǔ)音交互也會(huì)增加用戶的記憶負(fù)擔(dān)，尤其是面臨多項(xiàng)選擇并且選項(xiàng)內(nèi)容較長(zhǎng)時(shí)。

因此它無(wú)法同時(shí)輸出很多內(nèi)容，在接受信息和多選擇交互時(shí)，視覺(jué)具有更大的優(yōu)勢(shì)，聲音的效率不高?？偨Y(jié)來(lái)講，語(yǔ)音交互針對(duì)單向指令是更有效的，而雙向交互不是很有效。

劣勢(shì)2：嘈雜環(huán)境下語(yǔ)音識(shí)別精度降低

語(yǔ)音識(shí)別需要清晰的識(shí)別出人聲，包括將人聲和環(huán)境聲進(jìn)行分離，將人聲和人聲進(jìn)行分離。嘈雜環(huán)境使得人聲的提取變得非常困難，尤其是針對(duì)遠(yuǎn)場(chǎng)語(yǔ)音交互，噪音的問(wèn)題更加突出。

目前業(yè)內(nèi)普遍使用麥克風(fēng)陣列硬件和相關(guān)算法來(lái)優(yōu)化該問(wèn)題，但是無(wú)法完全解決，例如遠(yuǎn)場(chǎng)安靜環(huán)境下語(yǔ)音識(shí)別準(zhǔn)確率能達(dá)到95%，但是在嘈雜環(huán)境下僅能達(dá)到80%出頭。但是隨著技術(shù)的進(jìn)度，嘈雜環(huán)境下的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別準(zhǔn)確度也肯定會(huì)逐步完提升。

劣勢(shì)3：公開環(huán)境下語(yǔ)音交互具有心理負(fù)擔(dān)

語(yǔ)音交互的心理障礙是用戶不能預(yù)設(shè)和預(yù)先判斷。在同一情況下，不同的人可能會(huì)產(chǎn)生完全不同的行為和期望。這給設(shè)計(jì)者帶來(lái)了很大的麻煩，也給用戶帶來(lái)了不確定性。從心理體驗(yàn)來(lái)看，沒(méi)有多少人愿意對(duì)著機(jī)器說(shuō)話，因?yàn)橛锌赡軙?huì)得到毫無(wú)感情甚至是錯(cuò)誤的反應(yīng)

3. 語(yǔ)音交互適合什么場(chǎng)景和設(shè)備？

我們判斷什么場(chǎng)景和設(shè)備適合增加語(yǔ)音交互，根據(jù)語(yǔ)音交互的優(yōu)劣勢(shì)分析，得出以下加分項(xiàng)和減分項(xiàng)，為了簡(jiǎn)單起見，每個(gè)得分享賦予相同的權(quán)重，然后計(jì)算綜合得分，將適用程度劃分為高、中、低3檔，分別記2、1、0分。

原則1：每個(gè)設(shè)備類型僅考慮起本身的功能，不考慮因?yàn)槿肟谛再|(zhì)附加的額外功能，例如智能音箱，現(xiàn)在除了音箱屬性，被賦予了天氣、智能家居等其他屬性。未來(lái)形態(tài)下家庭語(yǔ)音入口會(huì)分布式的，智能音箱被賦予的生活助手的角色也會(huì)被剝離。

原則2：設(shè)備的功能考量時(shí)會(huì)考慮現(xiàn)在還不具備但是以后會(huì)延展的相關(guān)功能，例如冰箱，支持查詢冰箱內(nèi)的物品情況。

加分項(xiàng)：

需要復(fù)雜的信息輸入：輸入指令不能被窮舉，則得分最高，如果僅簡(jiǎn)單的輸入指令，則得分低；
使用對(duì)象雙手或雙眼被占用；
使用對(duì)象為非文字使用者：如果使用人群里老人、小孩和失明人群較多，則得分高，反之得分低；
需要跨短距離空間的操作：如果有實(shí)體按鍵，則得分高，如果可遠(yuǎn)程遙控則得分次之，而且皆無(wú)，則不得分；
原信息輸入的工具比較受限：輸入方式的便利程度觸屏>遙控>按鈕；
需要跨意圖指令輸入：如果需要同時(shí)或者相繼發(fā)出不同意圖的指令則得分高，反之得分低；
使用頻次：基本每天都要使用得分最高，每周3次左右次之，低于每周一次不得分；
設(shè)備與聲音的關(guān)聯(lián)度：如果設(shè)備本身就是播放多媒體內(nèi)容的得分高，其他的不得分；
需要聲音傳遞額外信息：例如聲紋、發(fā)音評(píng)測(cè)。

減分項(xiàng)：

環(huán)境私密程度低：例如辦公場(chǎng)景；
環(huán)境嘈雜：例如商場(chǎng)場(chǎng)景；
涉及到多層次交互（觸屏可彌補(bǔ)）：例如點(diǎn)外賣；
涉及到多條目選擇（觸屏可彌補(bǔ)）：例如購(gòu)物；
涉及到重要/隱私信息傳達(dá)（屏幕可彌補(bǔ)）：例如取款機(jī)。

下表為各的場(chǎng)景和設(shè)備適合語(yǔ)音化的得分：

（1）家居場(chǎng)景

家庭環(huán)境比較封閉和私密，并且噪音少，是實(shí)現(xiàn)語(yǔ)音交互的很好環(huán)境。

電視：機(jī)頂盒視為和電視同類，電視本身普及率及使用頻次高，生態(tài)內(nèi)容豐富使得其操作相對(duì)復(fù)雜，但又受限于遙控器這種低效的輸入方式，使得電視成為最適合進(jìn)行語(yǔ)音改造的設(shè)備，但是受囿于價(jià)格昂貴，嘗鮮門檻高，所以改造的節(jié)奏相對(duì)較慢，但是新一代的電視語(yǔ)音化肯定是不可阻擋的趨勢(shì)。
平板：市面上目前流行的帶屏音箱，更合適的說(shuō)法應(yīng)該是語(yǔ)音平板。
音箱：音箱因?yàn)槠涞土某杀荆o(wú)需屏幕和視頻資源）而率先引爆市場(chǎng)。
燈：雖然指令簡(jiǎn)單，但是因其操作頻繁且需要起身走到面前操作，跨空間成本高，使得燈具被語(yǔ)音化的訴求也較高。但是燈最適合的語(yǔ)音化是本地離線指令，也即通過(guò)“開燈”、”關(guān)燈”本地直接識(shí)別并控制燈具，無(wú)需加喚醒詞，也無(wú)需先傳到云端，云端處理完再傳到本地，更簡(jiǎn)潔更快速。
空調(diào)：空調(diào)因此相對(duì)高頻的使用和較為復(fù)雜的指令，和燈具類似具備一定的語(yǔ)音化必要。
冰箱：基本沒(méi)有語(yǔ)音化必要，除非冰箱承載的功能做了極大延展，例如冰箱增加屏幕，同時(shí)作為餐廳的電視使用，那么其語(yǔ)音化的必要性與電視一致。
洗衣機(jī)：基本沒(méi)有語(yǔ)音化必要。

（2）車載場(chǎng)景

隨著車聯(lián)網(wǎng)和智能汽車的興起，越來(lái)越多的功能被搭載在車機(jī)上。層出不窮的功能和日趨復(fù)雜的界面形成了對(duì)駕駛者注意力的爭(zhēng)奪，新的矛盾由此誕生。車載語(yǔ)音技術(shù)的獨(dú)特優(yōu)勢(shì)——幫助駕駛者降低對(duì)車內(nèi)設(shè)備的操作依賴，增加駕駛安全系數(shù)。

車載場(chǎng)景相對(duì)比較私密，但是噪音相比家庭場(chǎng)景較高，尤其是當(dāng)開窗之后風(fēng)噪更大。但是因?yàn)殚_車時(shí)手和眼睛都被占用，語(yǔ)音成為交互的最佳選擇，如接聽電話、開關(guān)車窗、廣播音樂(lè)、路線導(dǎo)航等語(yǔ)音指令，這就使得駕駛更加安全，可以更專注于路況。

車載常用語(yǔ)音功能如下：

（3）醫(yī)療場(chǎng)景

病歷錄入：語(yǔ)音識(shí)別在醫(yī)療中的應(yīng)用主要集中在直接將語(yǔ)音轉(zhuǎn)成結(jié)構(gòu)化電子病歷，方便醫(yī)生隨時(shí)查閱，大大減輕了工作量?？梢詾獒t(yī)生節(jié)省手寫病歷的時(shí)間，同時(shí)也可以為醫(yī)患糾紛提供材料佐證。

語(yǔ)音識(shí)別技術(shù)已經(jīng)在以美國(guó)為首的西方國(guó)家成功運(yùn)用到醫(yī)院放射科、病理科、急診室等部門中，臨床中使用語(yǔ)音識(shí)別錄入的比例已達(dá)到20%以上，并能夠明顯降低醫(yī)生工作強(qiáng)度，提高工作效率，降低了醫(yī)院日常運(yùn)作成本。醫(yī)療業(yè)務(wù)營(yíng)收占全球最大的語(yǔ)音技術(shù)公司Nuance全部營(yíng)收的50%。

（4）企業(yè)場(chǎng)景

智能客服：智能客服分為語(yǔ)音呼叫中心和在線客服兩塊來(lái)看。在客戶服務(wù)行業(yè)，當(dāng)用戶請(qǐng)求接入后，先由智能客服機(jī)器人解答80%的常見問(wèn)題，剩下20%復(fù)雜問(wèn)題再由真人專家客服來(lái)回答解決。智能客服機(jī)器人創(chuàng)造的整套流程已經(jīng)完全改變了整個(gè)客服行業(yè)的勞動(dòng)力結(jié)構(gòu)和工作方式。

目前，中國(guó)大約有500萬(wàn)全職客服，以年平均工資6萬(wàn)計(jì)算，再加上硬件設(shè)備和基礎(chǔ)設(shè)施，整體規(guī)模約4000億人民幣。按照40-50%的替代比例，并排除場(chǎng)地、設(shè)備等基礎(chǔ)設(shè)施以及甲方預(yù)算縮減，大概會(huì)有200-300億規(guī)模留給智能客服公司。
AI對(duì)企業(yè)服務(wù)市場(chǎng)的變革并不僅限于客服場(chǎng)景，以企業(yè)和用戶溝通為橋梁和入口，智能客服公司可以延伸到營(yíng)銷、銷售等重要的企業(yè)服務(wù)外部場(chǎng)景，從交互方式、流程優(yōu)化、數(shù)據(jù)分析等角度推動(dòng)企業(yè)外部服務(wù)的全面智能化，從而釋放100-200億的原有營(yíng)銷、銷售等市場(chǎng)規(guī)模。
除了取代部分人工的客服機(jī)器人，AI也在變革企業(yè)傳統(tǒng)的線下客服交互方式。隨著智能設(shè)備、物聯(lián)網(wǎng)的普及，各種設(shè)備也將成為企業(yè)服務(wù)客戶的入口和新興場(chǎng)景，智能客服公司、尤其是AI公司有機(jī)會(huì)在千億智能設(shè)備交互市場(chǎng)中分得200-300億規(guī)模。

（5）教育場(chǎng)景

語(yǔ)音平板：在少兒教育場(chǎng)景，語(yǔ)音可以發(fā)揮的空間會(huì)非常大，一方面少兒的文字學(xué)習(xí)還沒(méi)有非常完善，因此在信息錄入和互動(dòng)方面，語(yǔ)言是更低門檻的交互選擇，另一方面，語(yǔ)音可以進(jìn)行中英文發(fā)音的測(cè)評(píng)和糾正，對(duì)少兒的學(xué)習(xí)成長(zhǎng)價(jià)值更大。

互動(dòng)語(yǔ)言學(xué)習(xí)：針對(duì)語(yǔ)言發(fā)音，進(jìn)行實(shí)時(shí)評(píng)測(cè)和糾正，提升學(xué)習(xí)效果；
互動(dòng)動(dòng)畫：在動(dòng)畫中插入場(chǎng)景化語(yǔ)音交互，寓教于樂(lè)，提升少兒的沉浸感。

（6）出行場(chǎng)景

智能耳機(jī)：搭配工具來(lái)進(jìn)行語(yǔ)音交互會(huì)使得私密性更強(qiáng)而且更加方便。耳機(jī)作為本身就是穿戴中的一種產(chǎn)品，攜帶方便，決定了它有更多自然的使用場(chǎng)景，耳機(jī)這樣私人且私密化很強(qiáng)的產(chǎn)品，無(wú)論人們是在上班通勤、戶外運(yùn)動(dòng)還是在旅行時(shí)也能保持更高的使用率，戴在耳朵上的耳機(jī)，離人的語(yǔ)言器官很近，當(dāng)你和耳機(jī)進(jìn)行語(yǔ)音交互的時(shí)候，更像是和朋友交談。

使用耳機(jī)來(lái)與手機(jī)的語(yǔ)音交互模式連接時(shí)，是不是也可以使用一些動(dòng)作來(lái)喚醒它，例如：去敲擊耳機(jī)，通過(guò)這類動(dòng)作去喚醒可能會(huì)比喊它更加的自然，即使在公共場(chǎng)合也會(huì)避免尷尬出現(xiàn)。

（7）機(jī)器人

語(yǔ)言交互是人類日常最常用的交互方式，機(jī)器人自然要集成語(yǔ)音交互的功能。機(jī)器人分為消費(fèi)級(jí)機(jī)器人和商戶級(jí)機(jī)器人，消費(fèi)級(jí)機(jī)器人使用語(yǔ)音傳遞情感和提升交互效率，商戶級(jí)機(jī)器人使用語(yǔ)音傳遞品牌感和提升服務(wù)效率。

（8）安全與鑒權(quán)

聲紋：是無(wú)感知的身份識(shí)別，聲紋識(shí)別的理論基礎(chǔ)是每一個(gè)聲音都具有獨(dú)特的特征，通過(guò)該特征能將不同人的聲音進(jìn)行有效的區(qū)分。

美國(guó)研究機(jī)構(gòu)已經(jīng)表明在某些特點(diǎn)的環(huán)境下聲紋可以用來(lái)作為有效的證據(jù)。并且美國(guó)聯(lián)邦調(diào)查局對(duì)2000例與聲紋相關(guān)的案件進(jìn)行統(tǒng)計(jì)，利用聲紋作為證據(jù)只有0.31%的錯(cuò)誤率。目前利用聲紋來(lái)區(qū)分不同人這項(xiàng)技術(shù)已經(jīng)被廣泛認(rèn)可，并且在各個(gè)領(lǐng)域中都有應(yīng)用。

聲紋常常應(yīng)用于刑偵破案、罪犯跟蹤、國(guó)防監(jiān)聽、個(gè)性化應(yīng)用等等，說(shuō)話人確認(rèn)技術(shù)常常應(yīng)用于證券交易、銀行交易、公安取證、個(gè)人電腦聲控鎖、汽車聲控鎖、身份證、信用卡的識(shí)別等。

4. 語(yǔ)音交互與其他交互方式的融合？

語(yǔ)音交互有著信息接收效率低、嘈雜環(huán)境識(shí)別精度低、公開環(huán)境心理負(fù)擔(dān)的劣勢(shì)，因此在很多場(chǎng)景下純語(yǔ)音交互很受限，但是這些交互方式是可以通過(guò)其他交互進(jìn)行彌補(bǔ)的。

毋庸置疑，在接下來(lái)的幾年內(nèi)肯定會(huì)有更多不同結(jié)合方式的產(chǎn)品出現(xiàn)。

超全面的語(yǔ)音交互知識(shí)總結(jié)：從原理、場(chǎng)景到趨勢(shì)

（1）語(yǔ)音輸入/視覺(jué)化輸出

近些年，市面上有許多產(chǎn)品合入了語(yǔ)音輸入，其中有很多是有顯示屏的產(chǎn)品。在這些產(chǎn)品上，我們?cè)试S用戶語(yǔ)音輸入，而用界面顯示輸出的信息。

語(yǔ)音智能電視也是一個(gè)很好的例子。它們沒(méi)有能夠支持復(fù)雜輸入的硬件設(shè)備，而本身又有足夠多的功能足以支撐自然語(yǔ)義查詢。比如通過(guò)語(yǔ)音直接說(shuō)“播放流浪地球”，要比用遙控器上的十字箭頭方便多了。

語(yǔ)音智能屏幕是另外一個(gè)例子，從18年下半年語(yǔ)音智能屏幕開始流行，主要針對(duì)老人和小孩的人群，對(duì)老人的價(jià)值在于可以通過(guò)語(yǔ)音交互，搜索想看的影視內(nèi)容，對(duì)兒童的價(jià)值，在于語(yǔ)音溝通、影視播控以及聲音的評(píng)測(cè)。

實(shí)際上，那些有復(fù)雜功能，需要復(fù)雜輸入，而這些輸入都可以用語(yǔ)音命令代替，同時(shí)返回的結(jié)果不適合機(jī)讀出來(lái)的系統(tǒng)，都適合使用語(yǔ)音作為輸入方式，而用視覺(jué)作為輸出方式。

（2）混合模式

許多設(shè)備都在朝著混合模式的方向發(fā)展，它們會(huì)將語(yǔ)音、物理輸入和屏幕、語(yǔ)音輸出結(jié)合。導(dǎo)航app就是一個(gè)將這些交互手段結(jié)合的典型例子。

用戶能夠觸控拖動(dòng)地圖來(lái)查看，用物理按鍵或虛擬鍵盤輸入。當(dāng)駕車時(shí)，可以通過(guò)直接說(shuō)目的地名稱來(lái)開啟導(dǎo)航，用這種方式用戶可以不用將目光移向屏幕或用手來(lái)操作。語(yǔ)音輸出可以輸出導(dǎo)航的命令指示，而例如周圍道路擁堵狀況等較為難以描述的信息可以使用屏幕顯示。

這是一種很好的輸入輸出結(jié)合方式，每種交互方式都將自己的優(yōu)勢(shì)發(fā)揮出來(lái)。整個(gè)導(dǎo)航系統(tǒng)會(huì)根據(jù)用戶需求和信息的復(fù)雜程度來(lái)選擇信息的呈現(xiàn)方式，一方面，用戶在特定場(chǎng)景下可以不用手眼就能操作，而同時(shí)用戶也能選擇在另一些場(chǎng)景下使用屏幕。

但這種方式的設(shè)計(jì)還很少見，因?yàn)樯鲜龅姆绞绞腔趯?duì)用戶的使用方式有深刻理解的基礎(chǔ)上的。導(dǎo)航系統(tǒng)在汽車內(nèi)使用語(yǔ)音還是一個(gè)比較明顯的場(chǎng)景，但不是所有的產(chǎn)品都有一個(gè)明確的使用環(huán)境，所以判斷什么情況下使用語(yǔ)音交互是比較困難的。

5. 語(yǔ)音交互的未來(lái)

雖然目前的語(yǔ)音識(shí)別技術(shù)已經(jīng)能夠讓機(jī)器聽懂大部分人類的聲音，但離“賈維斯”這種假想的超級(jí)智能助理的交互能力還很遠(yuǎn)，語(yǔ)音識(shí)別技術(shù)的發(fā)展方向?qū)淖R(shí)別到感知認(rèn)知。

趨勢(shì)1：免喚醒交互

遠(yuǎn)場(chǎng)語(yǔ)音交互，出于意圖識(shí)別考慮，增加喚醒詞作為對(duì)話開始的條件，但是喚醒詞也無(wú)形中增加了溝通的成本。尤其是在一些多輪次交互方案中，例如：你想看電影，主流程需要“我要看電影”-“播放第3個(gè)”-“全屏”-“快進(jìn)3分鐘”，如果每次都要喚醒，用戶體驗(yàn)很差，部分情況反而不如遙控器效率高。因此在特定多流程場(chǎng)景下迫切需要免喚醒交互。

趨勢(shì)2：離線語(yǔ)音識(shí)別

離線語(yǔ)音識(shí)別指的是在本地直接進(jìn)行指令的識(shí)別和處理，而無(wú)需連接到云端，好處是一方面無(wú)需喚醒詞，另一方面無(wú)需聯(lián)網(wǎng)，速度快。針對(duì)燈、空調(diào)、電視等設(shè)備，采用離線指令識(shí)別體驗(yàn)更好，例如直接對(duì)設(shè)備說(shuō)“開燈”和“關(guān)燈”可以快速實(shí)現(xiàn)臺(tái)燈的開和關(guān)。

趨勢(shì)3：多通道交互

IOT時(shí)代家庭的聯(lián)網(wǎng)設(shè)備越來(lái)越多，但是體驗(yàn)提升有限，直到IOT有了語(yǔ)音AI的加持，徹底宣告AIOT時(shí)代的到來(lái)，通過(guò)語(yǔ)音設(shè)備可以控制聯(lián)網(wǎng)設(shè)備，進(jìn)一步促進(jìn)了家庭智能設(shè)備的滲透和覆蓋，2018年中國(guó)智能音箱銷售量約2200萬(wàn)臺(tái)，隨著家庭智能設(shè)備的越來(lái)越多，用戶的需求也逐步出現(xiàn)新的特征。

第1：需求往往都是非單一任務(wù)，而是多任務(wù)聚合；
第2：需要多設(shè)備之間的聯(lián)動(dòng)；
第3：服務(wù)狀態(tài)可以持續(xù)性遷移，無(wú)論是跨時(shí)間還是空間。

多通道交互就是綜合使用多種輸入通道和輸出通道，用最恰當(dāng)?shù)姆绞絺鬟f服務(wù)，滿足用戶需求。

通俗一點(diǎn)講，多模態(tài)互動(dòng)就是將智能設(shè)備的通道進(jìn)行注冊(cè)和管理，根據(jù)用戶的需求，給不同的通道分配相應(yīng)的任務(wù)，以期用最恰當(dāng)?shù)姆绞饺M足用戶需求。例如：將智能音箱和電視作為一個(gè)系統(tǒng)進(jìn)行多通道交互，可以綜合使用它們5個(gè)輸入和輸出通道。舉個(gè)最簡(jiǎn)單的例子：當(dāng)我問(wèn)音箱天氣的時(shí)候，可以將天氣的圖形通過(guò)電視進(jìn)行顯示和播報(bào)，更用戶更直觀的體驗(yàn)。

MCUI在家庭場(chǎng)景落地的最典型案例，就是智能音箱和機(jī)頂盒的組合，可以實(shí)現(xiàn)帶屏智能音箱的所有功能，并且體驗(yàn)更佳。

一方面成本更低，一個(gè)無(wú)屏音箱100元以內(nèi)，帶屏智能音箱需要500元左右。
另一方面大屏觀看體驗(yàn)更佳，針對(duì)兒童教育場(chǎng)景，大屏不容易造成近視，并且父母的可管控型更強(qiáng)，因此智能音箱+機(jī)頂盒的產(chǎn)品體驗(yàn)，以后一定會(huì)成為主流。

參考資料：Laura Klein，面對(duì)智能化的未來(lái)，設(shè)計(jì)師你準(zhǔn)備好了么（語(yǔ)音交互篇）

作者：Jason，微信公眾號(hào)：Smart_Byte。

本文由@Jason 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來(lái)自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App