激情五月亚洲色五月，欧美午夜精品免费理论片，久久精品手机观看，亚洲AV秘片一区二区三，五月天国产亚洲激情在线观看，亚洲无码高清视频，一级无码毛片在线免费看，中文字幕无码不卡顿

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

語(yǔ)音交互的基本概念和設(shè)計(jì)實(shí)踐

杜松

2018-05-28

5 評(píng)論 15355 瀏覽 107 收藏

27 分鐘

語(yǔ)音技術(shù)的發(fā)展，將會(huì)給我們的產(chǎn)品設(shè)計(jì)帶來(lái)極大的改變。未來(lái)的產(chǎn)品方向，或者說(shuō)是人機(jī)交互的方式，極可能是視覺(jué)與聽(tīng)覺(jué)的更加立體的交互，我們會(huì)有機(jī)會(huì)來(lái)設(shè)計(jì)一種完全不一樣的用戶(hù)體驗(yàn)，和完全不同的產(chǎn)品認(rèn)知。

一、什么是VUI？

作為新一代的交互模式，通俗的說(shuō)，VUI（語(yǔ)音用戶(hù)界面）就是用人類(lèi)最自然的語(yǔ)言（開(kāi)口說(shuō)話(huà)）給機(jī)器下達(dá)指令，達(dá)成自己的目的的過(guò)程，這一過(guò)程包括三個(gè)環(huán)節(jié)：

能聽(tīng)、會(huì)說(shuō)、懂你。

VUI是一種以人類(lèi)內(nèi)心意圖為中心的人機(jī)交互方式，以交談式為核心的智能人機(jī)交互體驗(yàn)。

最典型的應(yīng)用就是語(yǔ)音助手，當(dāng)下最熱門(mén)的產(chǎn)品就是智能音箱了。

二、語(yǔ)音交互有什么優(yōu)勢(shì)？

輸入更高效。研究結(jié)果表明，語(yǔ)音輸入比鍵盤(pán)輸入快3倍。如果你從解鎖手機(jī)到設(shè)置鬧鐘需要兩分鐘，直接說(shuō)一句話(huà)設(shè)置鬧鐘，可能只需要10秒鐘；
表達(dá)更自然。人類(lèi)是先有語(yǔ)音再有文字，每個(gè)人都會(huì)說(shuō)話(huà)但有一部分人不會(huì)寫(xiě)字，語(yǔ)音交互比界面交互更自然，學(xué)習(xí)成本更低；
感官占用更少。一張嘴，將人的雙手、眼睛從圖形界面交互中解放出來(lái)，想象一下當(dāng)你手握方向盤(pán)時(shí)，說(shuō)一句話(huà)就直接接聽(tīng)電話(huà)、播放音樂(lè)，是不是更方便也更安全。騰出來(lái)的感官，意味著可以并行處理其他任務(wù)，理論上有更高的效率。
信息容量更大。語(yǔ)音中包含了語(yǔ)氣、音量、語(yǔ)調(diào)和語(yǔ)速這些特征，交流的雙方可以傳達(dá)大量的信息，特別是情緒的表達(dá)，其表達(dá)的方式也更帶有個(gè)人特色和場(chǎng)景特色。當(dāng)見(jiàn)不著面，聽(tīng)不到聲音的時(shí)候，人與人之間的真實(shí)感就會(huì)下降很多。

VUI不再依賴(lài)固定的路徑完成操作指令，而且是每個(gè)人都可以有自己的方式和特色。

這是VUI與GUI革命性的改變。

對(duì)今天的App、瀏覽器而言，其直接下達(dá)指令的特性，使得語(yǔ)音交互可能成為一個(gè)全新的、去中心化的超級(jí)入口，也正是因?yàn)榇?，徹底引爆了整個(gè)市場(chǎng)。

從“百團(tuán)大戰(zhàn)”之后，我們又見(jiàn)到了“百箱大戰(zhàn)”。

三、語(yǔ)音交互存在什么障礙？

語(yǔ)音百般好，應(yīng)用一時(shí)難。

語(yǔ)音交互走到今天，已經(jīng)付出了非常大的努力，但依然是有多少人工，就有多少智能。

“智能”與“智障”之間，隔著一線(xiàn)天。

當(dāng)然，對(duì)從業(yè)者來(lái)說(shuō)，當(dāng)下的語(yǔ)音交互認(rèn)為應(yīng)該處于一種“沒(méi)有想象的那么好，也沒(méi)有想象的那么差”的境地。

1.注意力障礙

語(yǔ)音交互是非可視化的，帶來(lái)的問(wèn)題就是增加人的記憶負(fù)擔(dān)。你打過(guò)銀行的客戶(hù)電話(huà)就知道，你必須集中精力聽(tīng)完語(yǔ)音播報(bào)之后才能做下一步動(dòng)作，如果你比較著急的話(huà)，那你就會(huì)非常的難受。事實(shí)上，人在獲取信息的適合，視覺(jué)要強(qiáng)過(guò)聽(tīng)覺(jué)。

別人講話(huà)時(shí)你可能要等他說(shuō)完你才理解，而你看文字的時(shí)候，甚至可以直接跳過(guò)部分文字你也能理解，特別是中文。所以，音箱添加屏幕是趨勢(shì)。對(duì)于語(yǔ)音的效率問(wèn)題，可以說(shuō)是單方面的輸入更高效，而雙向互動(dòng)反而效率不高。

或者說(shuō)，獲取信息的時(shí)候，視覺(jué)有很大的優(yōu)勢(shì)，而聲音的效率并不高（現(xiàn)實(shí)中為什么總會(huì)出現(xiàn)“打斷”對(duì)話(huà)的現(xiàn)象，就是因?yàn)檎Z(yǔ)音的表達(dá)效率不高，聽(tīng)者等不及）。

2.心理障礙

想象一下你晚上一個(gè)人在家，你會(huì)不會(huì)突然開(kāi)口叫一句”小明小明，明天什么天氣？”莫名其妙的語(yǔ)音，會(huì)讓人感到一絲不自在，特別是一旦小明存在一定缺陷的時(shí)候，所引發(fā)的錯(cuò)誤。從心理感受出發(fā)，沒(méi)有多少人愿意對(duì)著冰冷的機(jī)器說(shuō)話(huà)，然后得到毫無(wú)感情的甚至是錯(cuò)誤的回應(yīng)。語(yǔ)音交互存在的另一個(gè)心理障礙是，語(yǔ)音交互的不可預(yù)設(shè)和預(yù)判性。

不同的人，在同樣的情境下都可能產(chǎn)生完全不同的行為和預(yù)期。這給設(shè)計(jì)者來(lái)說(shuō)帶來(lái)很大困擾，也為用戶(hù)帶來(lái)不確定性的擔(dān)憂(yōu)。

在面對(duì)不可預(yù)知的狀況下，設(shè)計(jì)者和使用者互相難以領(lǐng)會(huì)彼此的意圖，就會(huì)形成一種博弈消耗。

為了應(yīng)對(duì)這種不確定性，可能導(dǎo)致系統(tǒng)必須通過(guò)更多的場(chǎng)景理解和上下文關(guān)系，去解析用戶(hù)的意圖來(lái)做出可能合理的信息反饋，這將進(jìn)一步帶來(lái)技術(shù)的復(fù)雜度。

3.技術(shù)障礙

語(yǔ)音交互為什么如此受到期待，是因?yàn)樘挥邢胂罂臻g了，能夠讓我們盡可能的釋放被占用的感官。想象一下，你只說(shuō)一句“訂一箱牛奶”，快遞就會(huì)在約定好的時(shí)間送過(guò)來(lái)，多美好的生活?，F(xiàn)實(shí)生活中，人與人的交流，甚至一個(gè)眼神一個(gè)動(dòng)作就可以引起對(duì)方的注意和反饋。

而現(xiàn)階段的智能音箱需要定義一個(gè)將助手從待機(jī)狀態(tài)切換到工作狀態(tài)的詞語(yǔ)，即所謂的“喚醒詞”，這是一個(gè)不得已而為之的蹩腳設(shè)計(jì)，你想做什么之前都要先來(lái)一句“小明小明”，這種疊詞的對(duì)話(huà)方式特別讓人反感。

實(shí)際上，語(yǔ)音交互的技術(shù)依然存在巨大挑戰(zhàn)，還很難在復(fù)雜的環(huán)境和不確定的情景下，真實(shí)的理解用戶(hù)的行為和意圖，想要給出用戶(hù)在不同場(chǎng)景下的期望值，軟硬件技術(shù)都還有漫長(zhǎng)的路要走。

今天的語(yǔ)音交互，在某些場(chǎng)景下，本身就是一種劣勢(shì)。比如你站在電視機(jī)旁邊，開(kāi)關(guān)機(jī)這個(gè)動(dòng)作最適合的交互應(yīng)該是手——直接一按就可以解決，為什么還要開(kāi)口說(shuō)話(huà)？

這一點(diǎn)說(shuō)明：不是什么設(shè)備都可以加一個(gè)屏幕，也不是什么什么都可以加一個(gè)麥克風(fēng)。

語(yǔ)音交互是否能夠廣泛應(yīng)用，有賴(lài)于對(duì)場(chǎng)景的深度理解，以及人能智能技術(shù)的進(jìn)步。

語(yǔ)音交互好不好，不僅僅依賴(lài)硬件設(shè)備的識(shí)別準(zhǔn)確率，更需要垂直場(chǎng)景下的語(yǔ)義理解，以及后端內(nèi)容服務(wù)的連接。

四、語(yǔ)音交互能否取代圖形界面？

結(jié)論是：語(yǔ)音和圖形交互不存在取代，就像人的眼睛和耳朵一樣。

不得不感嘆造物主的神奇，千百萬(wàn)年來(lái)的進(jìn)化，給了我們這樣一個(gè)絢麗多姿的世界。

人類(lèi)耳聽(tīng)、眼觀(guān)、嘴說(shuō)、手動(dòng)的自然構(gòu)造，說(shuō)明適應(yīng)環(huán)境最好的方式就是分工合作，協(xié)同感知和應(yīng)對(duì)環(huán)境，并作出最合適的行為反饋。

所以，最符合于人類(lèi)的人機(jī)交互體驗(yàn)，就是在不同的場(chǎng)景由不同的器官（方式）來(lái)完成，以一種自然的與外界進(jìn)行信息交互。

隨著技術(shù)的進(jìn)步，交互的方式定將發(fā)生顛覆式革新，未來(lái)的人機(jī)交互將更趨向于立體和本能。GUI+VUI，是一對(duì)有機(jī)的結(jié)合體，因?yàn)樗先祟?lèi)的本能，語(yǔ)音交互不是取代觸摸交互的升級(jí)，二者之間只會(huì)彼此共同促進(jìn)，通過(guò)恰當(dāng)?shù)膮f(xié)作機(jī)制提供更好的用戶(hù)體驗(yàn)。

但，我們需要清晰的理解二者之間存在著本質(zhì)性差異：

GUI是一種預(yù)設(shè)路徑的交互方式，通過(guò)識(shí)別用戶(hù)的下滑、點(diǎn)擊、雙擊等交互行為以及用戶(hù)所處的頁(yè)面位置，判斷用戶(hù)的指令并作出準(zhǔn)確的反饋。這是一種單一路徑的操作方式，但足夠清晰。
VUI聚焦于如何發(fā)揮語(yǔ)言和表意的強(qiáng)大力量，采用人們?nèi)粘５恼Z(yǔ)言來(lái)交流，真實(shí)，自然的表達(dá)和獲取反饋，獲取用戶(hù)的信任、傳遞信息。

語(yǔ)音交互的流程更加直接，用戶(hù)甚至可以發(fā)出不同的語(yǔ)音指令來(lái)期望獲得同一個(gè)反饋。

五、語(yǔ)音交互的未來(lái)會(huì)變成怎樣？

1.無(wú)處不在

想象一下你在家里，最好的方式一定是不管你在那個(gè)房子，你都可以說(shuō)一句“小明，明天送一箱牛奶”，而不是非要找到某一個(gè)音箱設(shè)備才能下達(dá)指令。

也就是未來(lái)的語(yǔ)音助手，一定是移動(dòng)的，或者說(shuō)是無(wú)處不在。

同時(shí)，借助一系列的傳感設(shè)備，從聲音紋路、體征指標(biāo)、環(huán)境指標(biāo)，綜合評(píng)估和理解當(dāng)下的真實(shí)環(huán)境，并給初恰當(dāng)?shù)姆答仭?/p>

2.主動(dòng)服務(wù)

現(xiàn)在所有的語(yǔ)音助手，都還是被動(dòng)地交談，你必須給出命令，它們才會(huì)應(yīng)答。

但想像一下未來(lái)，當(dāng)深度學(xué)習(xí)和大數(shù)據(jù)已經(jīng)做好了充足的準(zhǔn)備，語(yǔ)音助手能預(yù)知你接下來(lái)要去哪，要見(jiàn)什么人，甚至在想什么，只需要用語(yǔ)音的方式輸出這些信息。你不再需要點(diǎn)亮手機(jī)去查看這些智能的提醒，隨時(shí)隨地，會(huì)有一個(gè)聲音和你主動(dòng)交談。

也許，未來(lái)技術(shù)的發(fā)展，各種穿戴設(shè)備，甚至植入體內(nèi)的芯片會(huì)帶給我們完全不同的與外界交互的途徑。

但以當(dāng)下我們對(duì)自身的理解，人的獲取外界信息和表達(dá)內(nèi)在情緒的感官體驗(yàn)，依然無(wú)法被取代。

六、什么場(chǎng)景適合使用語(yǔ)音交互？

語(yǔ)音交互同互聯(lián)網(wǎng)誕生以來(lái)用戶(hù)就習(xí)慣的GUI界面交互相比，主要是輸入方式不同導(dǎo)致的，最顯著特性就是“解放了雙手”——你在使用語(yǔ)音請(qǐng)求時(shí)，眼睛和手可以同時(shí)忙于其他的事情，從這點(diǎn)出發(fā)，語(yǔ)音交互在家居和出行領(lǐng)域有天然的優(yōu)勢(shì)。

家居：在家庭“相對(duì)封閉與安全”（特指針對(duì)語(yǔ)音信號(hào)采集的干擾程度），通過(guò)語(yǔ)音交互指令控制家居開(kāi)關(guān)是很好的切入點(diǎn)。相信在不久的將來(lái)，搭載了語(yǔ)音交互系統(tǒng)的智能家居，都可以聽(tīng)你的話(huà)，你說(shuō)所說(shuō)的每個(gè)指令，都會(huì)直接影響/控制到當(dāng)前家居的運(yùn)行狀態(tài)。“你可能越來(lái)越愜意，也可能越來(lái)越懶……”
出行車(chē)載語(yǔ)音交互系統(tǒng)：釋放了駕駛員的手和眼，讓司機(jī)專(zhuān)注于前方的路況，如接聽(tīng)電話(huà)、開(kāi)關(guān)車(chē)窗、播放廣播音樂(lè)、路線(xiàn)導(dǎo)航等語(yǔ)音交互指令。
企業(yè)應(yīng)用：未來(lái)會(huì)有各種各樣專(zhuān)業(yè)的知識(shí)工作者會(huì)在或大或小的程度被簡(jiǎn)化或者被替代，比如文本、數(shù)據(jù)的錄入工作，比如客服機(jī)器人。但，極不太可能的是直接對(duì)著一個(gè)設(shè)備吼兩嗓子做一個(gè)PPT的方式。
醫(yī)療&教育：如語(yǔ)音記錄病歷，不管對(duì)醫(yī)生來(lái)說(shuō)還是患者來(lái)說(shuō)，都是提高看病效率的很好的輔助手段之一。

以目前的技術(shù)條件而言，單向的指令性動(dòng)作是最適合語(yǔ)音來(lái)表達(dá)的，因?yàn)樗銐蚯逦椭苯印?/p>

七、語(yǔ)音交互涉及那些技術(shù)?

VUI（語(yǔ)音用戶(hù)界面）所涉及的技術(shù)模塊有 4 個(gè)部分，分別為：

自動(dòng)語(yǔ)音識(shí)別：Automatic Speech Recognition, ASR
自然語(yǔ)言理解：Natural Language Understanding, NLU
自然語(yǔ)言生成：Natural Language Generation, NLG
文字轉(zhuǎn)語(yǔ)音：Text to Speech, TTS

上圖即為語(yǔ)音交互技術(shù)包括的識(shí)別、理解和對(duì)話(huà)三個(gè)部分。

整個(gè)過(guò)程通俗的說(shuō)，就是通過(guò)麥克風(fēng)讓機(jī)器能聽(tīng)到用戶(hù)說(shuō)的話(huà)，然后聽(tīng)懂用戶(hù)想要表達(dá)的意思，并把反饋的結(jié)果“說(shuō)給用戶(hù)聽(tīng)”。

舉個(gè)例子就是：

小明：明天什么天氣？

助手：晴，37攝氏度。

整個(gè)過(guò)程分解之后，就變成這樣一個(gè)過(guò)程：

小明對(duì)著機(jī)器說(shuō)一句話(huà)后，機(jī)器內(nèi)置的麥克風(fēng)識(shí)別到小明說(shuō)的話(huà)，把口語(yǔ)化的文本歸一、糾錯(cuò)，并書(shū)面化（ASR）；
然后機(jī)器根據(jù)文本理解小明的意圖（通常是在云端進(jìn)行語(yǔ)義的理解）并進(jìn)入對(duì)話(huà)管理，當(dāng)意圖不明確時(shí)，還需要機(jī)器發(fā)起確認(rèn)對(duì)話(huà)，繼續(xù)補(bǔ)充相關(guān)內(nèi)容，這就是多輪對(duì)話(huà)；
在明確小明意圖后，去獲取相關(guān)的數(shù)據(jù)，或者執(zhí)行相關(guān)的命令；
最后把內(nèi)容通過(guò)揚(yáng)聲器播放給小明聽(tīng)（TTS，語(yǔ)義理解后獲得的結(jié)果文本信息合成為聲音）。

至此完成一個(gè)完成對(duì)話(huà)過(guò)程。（實(shí)際上，也是一個(gè)蠻晦澀的過(guò)程）

在上述的四個(gè)環(huán)節(jié)，都很關(guān)鍵，都存在很大的技術(shù)挑戰(zhàn)。

值得特別提出來(lái)的是ASR和NLU兩個(gè)環(huán)節(jié)。

ASR是通過(guò)聲學(xué)模型和語(yǔ)言模型，將人的語(yǔ)音識(shí)別為文本的技術(shù)。

它依賴(lài)麥克風(fēng)本身的性能和設(shè)計(jì)，如何確保在復(fù)雜的現(xiàn)實(shí)環(huán)節(jié)下，把干擾信息過(guò)濾，獲取到準(zhǔn)確的信息，我們場(chǎng)景的智能音箱，通常都是多個(gè)麥克風(fēng)組成一個(gè)環(huán)形的設(shè)計(jì)，目的就在提供獲取語(yǔ)音的準(zhǔn)確率。

語(yǔ)音識(shí)別只是知道我們說(shuō)了什么，但真正要理解我們說(shuō)的是什么，就需要依靠 NLU 這項(xiàng)技術(shù)。主要解決分詞、詞性標(biāo)注、實(shí)體識(shí)別、文本分類(lèi)和情感分析這幾個(gè)問(wèn)題。

比如：

從北京飛上海要多久？

到廣州呢？

上例中，實(shí)際上就是試圖通過(guò)一個(gè)框架模型解析一句話(huà)的意圖。

目前為止最成功的”框架語(yǔ)義（Frame Semantics）”，即采用領(lǐng)域（Domain）、意圖（Intent）和詞槽（Slot）來(lái)表示語(yǔ)義結(jié)果。

領(lǐng)域（Domain）：領(lǐng)域是指同一類(lèi)型的數(shù)據(jù)或資源，以及圍繞這些數(shù)據(jù)或資源提供的服務(wù)。比如“天氣”、“音樂(lè)”、“酒店”等。
意圖（Intent）：意圖是指對(duì)于領(lǐng)域數(shù)據(jù)的操作，一般以動(dòng)賓短語(yǔ)來(lái)命名，比如音樂(lè)領(lǐng)域有“查詢(xún)歌曲”、“播放音樂(lè)”、“暫停音樂(lè)”等意圖。
詞槽（Slot）：詞槽用來(lái)存放領(lǐng)域的屬性，比如音樂(lè)領(lǐng)域有“歌曲名”、“歌手”等詞槽。

舉個(gè)例子，從“北京明天天氣怎么樣”這句話(huà)中，NLU 可以得到以下語(yǔ)義結(jié)果：

領(lǐng)域（Domain）：天氣
意圖（Intent）：查詢(xún)天氣
詞槽（Slot）：

城市（city） = 北京

時(shí)間（date） = 明天

我們?cè)偻ㄟ^(guò)問(wèn)天氣的例子，來(lái)理解要完成一個(gè)對(duì)話(huà)的過(guò)程：

小明：明天天氣怎么樣？

助手：您要查詢(xún)哪個(gè)城市的天氣？

在這個(gè)例子中，語(yǔ)音助手試圖獲取更完整的領(lǐng)域、意圖和詞槽數(shù)據(jù)，也就是語(yǔ)音助手在對(duì)話(huà)開(kāi)始后，會(huì)結(jié)合本輪對(duì)話(huà)提供的語(yǔ)義信息和上下文數(shù)據(jù)，確定當(dāng)前對(duì)話(huà)狀態(tài)，同時(shí)會(huì)補(bǔ)全或替換詞槽，并且根據(jù)對(duì)話(huà)狀態(tài)和具體任務(wù)決定要執(zhí)行什么動(dòng)作，比如進(jìn)一步詢(xún)問(wèn)用戶(hù)以獲得更多的信息、調(diào)用內(nèi)容服務(wù)等。

這里的三個(gè)核心就是對(duì)話(huà)的上下文、對(duì)話(huà)的狀態(tài)跟蹤以及采取的對(duì)話(huà)策略，組成DM（對(duì)話(huà)管理），并最終把獲取的文本結(jié)果，合成為人耳聽(tīng)到的聲音（TTS）。

Q：明天天氣怎么樣？（intent=query_weather，date= 明天，city=null?）

A：您要查詢(xún)哪個(gè)城市的天氣？（action= 詢(xún)問(wèn)查詢(xún)哪個(gè)城市）

在回顧語(yǔ)音交互的全流程，可以看到它的核心就是用戶(hù)的意圖，如何識(shí)別意圖以及如何處理意圖。

換句話(huà)說(shuō)，語(yǔ)音是完全以用戶(hù)為出發(fā)點(diǎn)的技術(shù)，而圖形交互更多的是讓用戶(hù)在引導(dǎo)下完成指定的任務(wù)。

也從這個(gè)特性可以看到，語(yǔ)音交互遠(yuǎn)比圖形交互技術(shù)復(fù)雜，不同的語(yǔ)種會(huì)帶來(lái)不同的詞法、句法，然后在不同的語(yǔ)境下有著完全不同的語(yǔ)義（意圖）。

隨著技術(shù)的發(fā)展，機(jī)器結(jié)合更多的傳感器技術(shù)和生物識(shí)別技術(shù)，它能感知人們的語(yǔ)音、肢體和手勢(shì)甚至表情眼神，并通過(guò)調(diào)整自身的反饋來(lái)適應(yīng)人們那一刻提出的需求（包括脾氣性格、聲音特點(diǎn)、外外貌印象），真正實(shí)現(xiàn)人機(jī)的自然（本能）交互。

八、語(yǔ)音交互設(shè)計(jì)需要遵循什么原則？

語(yǔ)言學(xué)家Paul Grice 在1975年提出關(guān)于人們交際的4點(diǎn)合作原則，即：

量的準(zhǔn)則：既要讓人聽(tīng)懂，又不要說(shuō)太多廢話(huà)。盡量少添加不必要的措辭，比如用戶(hù)問(wèn)什么天氣，直接回答“廣州，晴”即可。
質(zhì)的準(zhǔn)則：說(shuō)真話(huà)，沒(méi)有證據(jù)的話(huà)不要說(shuō)。如果你的語(yǔ)音助手只可以問(wèn)天氣，就不要被喚醒后說(shuō)“有什么需要幫忙的”，當(dāng)用戶(hù)被引導(dǎo)而不能達(dá)成，只會(huì)給用戶(hù)一種挫敗感。
關(guān)系準(zhǔn)則：不要前言不搭后語(yǔ)，說(shuō)話(huà)要有聯(lián)系。
方式準(zhǔn)則：清晰明了，井井有條不要拐彎抹角也就是，我們所設(shè)計(jì)的語(yǔ)音助手，不要說(shuō)自己做不到的事情，比如“有什么可以幫助到你？”，這顯然就是超乎能力范圍了。

也不要在沒(méi)有弄明白意圖的時(shí)候，隨意強(qiáng)行反饋結(jié)果。

然而，人們?cè)趯?shí)際言語(yǔ)交際中，卻常常故意違反合作原則，特別是中國(guó)人所說(shuō)的“話(huà)里有話(huà)”，如何透過(guò)說(shuō)話(huà)人話(huà)語(yǔ)的表面含義而理解其言外之意的，對(duì)語(yǔ)音交互設(shè)計(jì)而言，是極其巨大的挑戰(zhàn)。

但，幽默也就時(shí)常在這時(shí)產(chǎn)生。

九、如何設(shè)計(jì)語(yǔ)音交互產(chǎn)品？

如同GUI（圖形用戶(hù)界面）以點(diǎn)擊-觸發(fā)為各個(gè)節(jié)點(diǎn)的交互邏輯一致，VUI（語(yǔ)音用戶(hù)界面）是從提問(wèn)到回答的流轉(zhuǎn)過(guò)程邏輯，將一個(gè)場(chǎng)景以對(duì)話(huà)的形式貫穿起來(lái)。

回想在GUI時(shí)代，我們?nèi)绾螢橛脩?hù)設(shè)計(jì)一個(gè)功能。

通常，我們都需要理清楚需求的邊界，做什么不做什么，然后把用戶(hù)的需求做一個(gè)流程的梳理，把各個(gè)環(huán)節(jié)的流轉(zhuǎn)以及可能出現(xiàn)的狀況狀態(tài)完整的表達(dá)出來(lái)，然后制作原型圖，繪制界面，最終迭代開(kāi)發(fā)上線(xiàn)。

我們通過(guò)“用戶(hù)故事”來(lái)描述用戶(hù)想要得到什么，會(huì)做什么，并把它設(shè)計(jì)成一個(gè)產(chǎn)品功能（對(duì)于VUI而言，稱(chēng)之為語(yǔ)音技能skill）。

不同的是，設(shè)計(jì)語(yǔ)音skill，是把戶(hù)可能和語(yǔ)音助手發(fā)生的對(duì)話(huà) (dialog) 通過(guò)腳本（script）和流程（flow）去定義交互的細(xì)節(jié)和多樣化的表達(dá)方式。（variantions）

1.確定目標(biāo)

首先需要搞清楚的是，用戶(hù)為什么要用這個(gè)skill，也就是需要設(shè)計(jì)一個(gè)或者多個(gè)情境，讓用戶(hù)有使用這個(gè)技能的意愿。

為什么用戶(hù)需要用它？用戶(hù)會(huì)做什么？不做什么？

2.創(chuàng)建故事

user story，和GUI下的設(shè)計(jì)是一致的，必須完整的定義基本的功能點(diǎn)，以及每個(gè)交互節(jié)點(diǎn)，明確用戶(hù)在使用這個(gè)技能的邊界是什么，可以做什么，不能做什么。

這是設(shè)計(jì)一個(gè)skill的基本原則。

用戶(hù)可以得到什么信息？用戶(hù)可以通過(guò)什么方式得到這個(gè)信息？為了得到這個(gè)信息，是否需要更多的服務(wù)作為支撐，比如訂外賣(mài)的skill？

3.建立流程

flow，也就是用戶(hù)完成某項(xiàng)任務(wù)的過(guò)程路徑。

在確定邊界范圍之后，需要為用戶(hù)設(shè)計(jì)完成任務(wù)所能使用到的不同的路徑，也就是需要盡可能的把各種正常的、異常的狀況，正向和反向的各種應(yīng)對(duì)措施完整的設(shè)計(jì)表達(dá)出來(lái)。

在設(shè)計(jì)語(yǔ)音skill的流程時(shí)，有幾條基本的原則（實(shí)際在也通用于GUI的流程設(shè)計(jì)）：

（1）最短路徑

一次性給出所有的必須信息，在語(yǔ)音交互過(guò)程中一句話(huà)（一輪對(duì)話(huà)）即可實(shí)現(xiàn)，如：明天北京的天氣怎樣嗎？

（2）替換路徑

通常，用戶(hù)說(shuō)的話(huà)不會(huì)包括所有的必要信息。

比如：明天下雨嗎？這里缺少了一個(gè)關(guān)鍵槽位（slot），地域。

也就是用戶(hù)在表達(dá)這句話(huà)的是會(huì)有兩種情況，默認(rèn)已知地理位置（當(dāng)前位置），或者需要聽(tīng)者追問(wèn)。

在我們的日常生活中，我們常常將把這句話(huà)理解為“明天（北京，自動(dòng)默認(rèn)當(dāng)前位置信息）下雨嗎？”

所以，必須設(shè)計(jì)完整的替換路徑和決策樹(shù)補(bǔ)充用戶(hù)對(duì)話(huà)中的缺失信息。

（3）決策機(jī)制

比如首次使用語(yǔ)音助手的時(shí)候“播放音樂(lè)”，和多次播放音樂(lè)之后的決策是會(huì)有很大的差異，后臺(tái)系統(tǒng)的決策邏輯需要根據(jù)用戶(hù)的使用情況，給出最優(yōu)機(jī)制，試圖為用戶(hù)創(chuàng)建更好的使用體驗(yàn)。

（4）幫助系統(tǒng)

語(yǔ)音交互的特殊性決定它在出現(xiàn)未知和異?，F(xiàn)象時(shí)，極容易讓用戶(hù)感到困惑。

所以，在設(shè)計(jì)一個(gè)語(yǔ)音skill的時(shí)候，必須清晰的給予引導(dǎo)，幫助用戶(hù)針獲得skill的使用方式或者全面的指引，以及當(dāng)數(shù)據(jù)缺失的反饋流程。

假設(shè)用戶(hù)小明問(wèn)“去北京要多久？”，你大概會(huì)需要畫(huà)這樣一個(gè)流程圖。

4.撰寫(xiě)腳本

腳本（scripts），用戶(hù)和語(yǔ)音助手之間的對(duì)話(huà)，這有點(diǎn)像一個(gè)電影或者戲劇的臺(tái)本，這是一種非常有效的定義對(duì)話(huà)流程的方式。

撰寫(xiě)腳本的時(shí)候，需要盡可能的遵循前面提到的對(duì)話(huà)原則，簡(jiǎn)明扼要，同時(shí)又要能夠挖掘到關(guān)鍵信息。

有兩點(diǎn)需要特別注意：

不要假設(shè)用戶(hù)知道做什么或者會(huì)發(fā)生什么
只提供用戶(hù)所需要的信息

舉個(gè)例子：

小明：明天出差要帶傘嗎？

助手：你要去哪里？

小明：北京

助手：別帶了，這幾天天氣特別好。

#專(zhuān)欄作家#

杜松，公眾號(hào)：產(chǎn)品微言，人人都是產(chǎn)品經(jīng)理專(zhuān)欄作家。專(zhuān)注于人工智能方向，擅長(zhǎng)產(chǎn)品規(guī)劃和架構(gòu)設(shè)計(jì)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自網(wǎng)絡(luò)

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

語(yǔ)音交互設(shè)計(jì)怎么做？文章被收錄于該專(zhuān)欄

共 26 篇文章39291 人已學(xué)習(xí)

杜松

產(chǎn)品經(jīng)理的公眾號(hào)：產(chǎn)品微言

42篇作品 1910560總閱讀量

出行回暖，網(wǎng)約車(chē)平臺(tái)又舍得補(bǔ)貼了

02-094157 瀏覽

消費(fèi)降級(jí)時(shí)代，為什么瑞幸降價(jià)，茅臺(tái)漲價(jià)？

11-125707 瀏覽

不容忽視的DAU小波動(dòng)，企業(yè)如何應(yīng)對(duì)？

11-116740 瀏覽

紙鶴，互動(dòng)視頻與 VR

07-202702 瀏覽

互聯(lián)網(wǎng)大廠(chǎng)混戰(zhàn)ChinaJoy

07-295496 瀏覽

評(píng)論

二馬馮

干貨，我們產(chǎn)品在給甲方測(cè)試的時(shí)候?qū)Ψ娇偸窍Ｍ軝C(jī)器人對(duì)話(huà)腳本一次說(shuō)很多，不知道越多人越是不可能等，注意力不能等機(jī)器說(shuō)完就打斷，然后就邏輯亂了。。。。。

最近來(lái)自廣東回復(fù)
Sylviaaa

干貨，點(diǎn)贊！

最近來(lái)自安徽回復(fù)
馬璐

然而操作精度太低了，沒(méi)辦法實(shí)現(xiàn)很多事情，比如寫(xiě)論文，編程，做axure原型

最近回復(fù)
1. 乳酸鈉楨垚回復(fù)馬璐
  
  有了電子書(shū)并不會(huì)導(dǎo)致紙質(zhì)書(shū)的消亡，同理，更好的交互只是提供更好的便利而不是去替代某種舊事物。
  
  最近回復(fù)