国产尤物在线视精品，爽片在线观看免费视频国产，99久久亚洲色妇按摩，无码精品精品免费，日本熟妇精品视频在线观看，久久综合免费乱子伦精品，少妇亚洲一区二区，三级片aV中文字幕

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

譯文｜語音助手的替代：語音用戶界面（VUI）

HMI怡伶設(shè)計(jì)心理

2022-10-08

1 評(píng)論 4601 瀏覽 20 收藏

21 分鐘

“語音助手”這一形式已經(jīng)十分常見，它通?？梢曰卮鹩脩舻哪承﹩栴}，并為用戶成功地答疑解惑。不過，語音助手雖然可以解決某些用戶任務(wù)，但當(dāng)任務(wù)的繁瑣程度升高時(shí)，語音助手可發(fā)揮的余地便會(huì)受限。那么，可以用什么樣的方式，來解決語音助手所存在的問題呢？

前言：語音助手是目前最流行的語音用戶界面用例。然而，由于語音助理通過與用戶交談來提供反饋，因此語音助手只能解決簡(jiǎn)單的用戶任務(wù)，例如設(shè)置鬧鐘或播放音樂。為了讓語音用戶界面真正取得突破，給用戶的反饋必須是可視化的，而不是聽覺的。

對(duì)大多數(shù)人來說，當(dāng)想到語音用戶界面時(shí)，首先想到的是語音助手，如Siri、Amazon Alexa或谷歌Assistant。事實(shí)上，語音助手是大多數(shù)人使用語音與計(jì)算機(jī)系統(tǒng)交互的唯一環(huán)境。

雖然語音助手將語音用戶界面帶到了主流，但助理范式不是使用、設(shè)計(jì)和創(chuàng)建語音用戶界面的唯一方式，甚至不是最好的方式。

在本文中，筆者將討論語音助手所面臨的問題，并提出一種新的語音用戶界面方法，我稱之為直接語音交互。

一、語音助手是基于語音的聊天機(jī)器人

語音助手是一種使用自然語言代替圖標(biāo)和菜單作為用戶界面的軟件。語音助手通常回答用戶的問題，并積極主動(dòng)地為用戶提供幫助。

語音助手與簡(jiǎn)單直接的處理事務(wù)和指令不同，而是模仿人類對(duì)話，并雙向使用自然語言作為交互模式，這意味著它既接受用戶的輸入，又通過使用自然語言向用戶回答。

第一批助手是基于對(duì)話的問答系統(tǒng)。一個(gè)早期的例子是微軟的Clippy，它糟糕地試圖幫助微軟Office的用戶，根據(jù)它認(rèn)為用戶想要完成的任務(wù)給出指令。而如今，助手范式的一個(gè)典型用例是聊天機(jī)器人，通常用于聊天討論中擔(dān)任客服。

另一方面，語音助手是使用語音而不是打字和文本的聊天機(jī)器人。用戶的輸入不是選擇或文本，而是語音，系統(tǒng)的響應(yīng)也是發(fā)聲朗讀出來。這些助手可以是通用助手，如谷歌助手或Alexa，可以合理地回答許多問題，也可以是為特殊目的而構(gòu)建的定制助理，如快餐訂購。

盡管用戶的輸入通常只有一兩個(gè)詞，并且可以作為選擇選項(xiàng)而不是實(shí)際文本呈現(xiàn)，但隨著技術(shù)的發(fā)展，人機(jī)對(duì)話將更加開放和復(fù)雜。聊天機(jī)器人和語音助手的第一個(gè)特性是使用自然語言以及對(duì)話風(fēng)格，而不是典型的移動(dòng)應(yīng)用程序或網(wǎng)站用戶體驗(yàn)的圖標(biāo)、菜單和交互風(fēng)格。

自然語言反應(yīng)的第二個(gè)決定性特征是表象人格的錯(cuò)覺。系統(tǒng)使用的語氣、質(zhì)量和語言定義了語音助手的體驗(yàn)、同理心和服務(wù)敏感性的錯(cuò)覺，以及它的人格角色。良好的助理體驗(yàn)的想法就像與一個(gè)真人打交道。

由于語音是我們最自然的交流方式，這聽起來可能很棒，但使用自然語言響應(yīng)有兩個(gè)主要問題。其中一個(gè)問題與計(jì)算機(jī)如何模仿人類有關(guān)，可能會(huì)在未來隨著對(duì)話式人工智能技術(shù)的發(fā)展得到解決，但人類大腦如何處理信息的問題是一個(gè)人類問題，在可預(yù)見的未來是無法解決的。下面讓我們來看看這些問題。

二、自然語言響應(yīng)的兩個(gè)問題

語音用戶界面當(dāng)然是使用語音作為一種方式的用戶界面。但語音模式可用于兩個(gè)方向：從用戶輸入信息和從系統(tǒng)向用戶輸出信息。例如，一些電梯在用戶按下按鈕后使用語音合成來確認(rèn)用戶選擇。我們稍后將討論僅使用語音輸入信息的語音用戶界面，并使用傳統(tǒng)的圖形用戶界面將信息顯示回饋給用戶。

另一方面，語音助手使用語音進(jìn)行輸入和輸出。這種方法有兩個(gè)主要問題：

問題1：模仿人類失敗

作為人類，我們有一種天生的傾向，將類似人類的特征歸因于非人類的物體。我們?cè)陲h過的云朵中看到一個(gè)人的容貌，或者看著一塊三明治，它似乎在對(duì)我們笑。這被稱為擬人化。

這種現(xiàn)象也適用于語音助手，它是由他們的自然語言反應(yīng)觸發(fā)的。雖然圖形用戶界面可以構(gòu)建得有點(diǎn)中性，但人類不可能不開始思考某人的聲音是屬于年輕人還是老年人，或者他們是男性還是女性。因此，用戶幾乎開始認(rèn)為助理確實(shí)是人類。

然而，我們?nèi)祟惙浅Ｉ瞄L發(fā)現(xiàn)假貨。奇怪的是，越接近人類的東西，這些微小的偏差就越開始困擾我們。對(duì)于那些試圖變得像人類但卻無法達(dá)到人類標(biāo)準(zhǔn)的東西，人們會(huì)有一種毛骨悚然的感覺。在機(jī)器人和計(jì)算機(jī)動(dòng)畫中，這被稱為“恐怖谷效應(yīng)”。

我們把語音助手做得越好、越人性化，當(dāng)出現(xiàn)問題時(shí)，用戶體驗(yàn)就會(huì)越令人毛骨悚然、令人失望。每個(gè)嘗試過語音助手的人可能都無意中遇到過這樣的問題: 回答一些讓人感覺愚蠢甚至粗魯?shù)膯栴}。

語音助手的恐怖谷效應(yīng)給助手的用戶體驗(yàn)帶來了一個(gè)難以克服的質(zhì)量問題。事實(shí)上，圖靈測(cè)試(以著名數(shù)學(xué)家艾倫·圖靈的名字命名)通過的條件是，當(dāng)人類評(píng)估者展示兩個(gè)代理之間的對(duì)話時(shí)，不能區(qū)分哪個(gè)是機(jī)器，哪個(gè)是人。到目前為止，從未有人工智能通過。

這意味著，助手范式為類人服務(wù)體驗(yàn)設(shè)定了一個(gè)永遠(yuǎn)無法實(shí)現(xiàn)的承諾，用戶肯定會(huì)感到失望。成功的體驗(yàn)只會(huì)建立最終的失望，因?yàn)橛脩糸_始信任他們的類人助手。

問題2：順序和緩慢的相互作用

語音助理的第二個(gè)問題是，自然語言響應(yīng)的回合制性質(zhì)導(dǎo)致交互延遲。這得歸因于我們的大腦處理信息的方式。

大腦中的信息處理。（資料來源：彭聃齡《普通心理學(xué)》）

我們的大腦中有兩種類型的數(shù)據(jù)處理系統(tǒng)：

加工處理說話的語言系統(tǒng)；
專門加工處理視覺和空間信息的視覺空間系統(tǒng)。

這兩個(gè)系統(tǒng)可以并行運(yùn)行，但兩個(gè)系統(tǒng)一次只處理一件事。這就是為什么你可以一邊說話一邊開車，但你不能一邊發(fā)短信一邊開車，因?yàn)檫@兩種活動(dòng)都會(huì)發(fā)生在視覺空間系統(tǒng)中。

同樣，當(dāng)你和語音助手交談時(shí)，語音助手需要保持安靜，反之亦然。這創(chuàng)造了一種回合制的對(duì)話，其中另一部分總是完全被動(dòng)的。

然而，假想一個(gè)你想和朋友討論的難題。你們可能會(huì)面對(duì)面討論，而不是通過電話討論，對(duì)嗎？這是因?yàn)樵诿鎸?duì)面的對(duì)話中，我們使用非語言溝通來向?qū)υ捇锇樘峁?shí)時(shí)的視覺反饋。這創(chuàng)建了一個(gè)雙向信息交換循環(huán)，并使雙方能夠同時(shí)積極參與對(duì)話。

語音助手不會(huì)提供實(shí)時(shí)的視覺反饋。他們依靠一種稱為終點(diǎn)測(cè)定的技術(shù)來決定用戶何時(shí)停止說話，并在此之后回復(fù)。當(dāng)他們回復(fù)時(shí)，他們不會(huì)同時(shí)接受用戶的任何輸入。體驗(yàn)完全是單向和回合制的。

在雙向和實(shí)時(shí)面對(duì)面的對(duì)話中，雙方可以立即對(duì)視覺和語言信號(hào)做出反應(yīng)。這利用了人類大腦的不同信息處理系統(tǒng)，使對(duì)話變得更加順暢和高效。

語音助手卡在單向模式下，因?yàn)樗麄兺瑫r(shí)使用自然語言作為輸入和輸出通道。雖然語音輸入的速度是打字輸入的四倍，但處理消化速度明顯慢于閱讀。由于信息需要按順序處理，所以這種方法只適用于簡(jiǎn)單的命令，如“關(guān)燈”，這些命令不需要助手的太多輸出。

在前文，我承諾討論僅使用語音輸入用戶數(shù)據(jù)的語音用戶界面。這種語音用戶界面受益于語音用戶界面的最佳部分——自然、快速和易于使用——但不受恐怖谷和順序交互的影響。

讓我們考慮一下這個(gè)替代方案。

三、語音助手的更好選擇

克服語音助手中這些問題的解決方案是放棄自然語言響應(yīng)，代之以實(shí)時(shí)視覺反饋。將反饋切換到視覺，將使用戶能夠同時(shí)提供和獲得反饋。這將使應(yīng)用程序能夠在不中斷用戶的情況下做出反應(yīng)，并啟用雙向信息流。由于信息流是雙向的，其吞吐量更大。

目前，語音助手最常用的用例是設(shè)置鬧鐘、播放音樂、查看天氣和詢問簡(jiǎn)單的問題。所有這些都是低風(fēng)險(xiǎn)的任務(wù)，在失敗時(shí)不會(huì)讓用戶太沮喪。

正如《華爾街日?qǐng)?bào)》的大衛(wèi)·皮爾斯曾經(jīng)寫道：

我無法想象通過語音助手預(yù)訂航班或管理我的預(yù)算，或者通過對(duì)我的揚(yáng)聲器大喊食材配料來跟蹤我的飲食。

——《華爾街日?qǐng)?bào)》的大衛(wèi)·皮爾斯

這些是信息密集型任務(wù)，需要正確處理。

然而，語音用戶界面終會(huì)走向失敗。關(guān)鍵是盡快解決這個(gè)問題。在鍵盤上打字時(shí)，甚至在面對(duì)面的對(duì)話中，都會(huì)出現(xiàn)很多錯(cuò)誤。然而，這一點(diǎn)也不令人沮喪，因?yàn)橛脩糁恍鑶螕敉烁癫⒃俅螄L試或請(qǐng)求澄清即可恢復(fù)。

這種從錯(cuò)誤中快速恢復(fù)的方式使用戶能夠提高效率，并且不會(huì)迫使他們與助手進(jìn)行奇怪的對(duì)話。

使用語音預(yù)訂機(jī)票。

直接語音互動(dòng)

在大多數(shù)應(yīng)用程序中，操作是通過操作屏幕上的圖形元素、戳或滑動(dòng)（在觸摸屏上）、單擊鼠標(biāo)和/鍵，或按下鍵盤上的按鈕來執(zhí)行的。語音輸入可以作為操作這些圖形元素的額外選項(xiàng)或模式添加。這種類型的互動(dòng)可以稱為直接語音交互。

直接語音交互和語音助手之間的區(qū)別在于，用戶不是要求語音助理化身去執(zhí)行任務(wù)，而是直接用語音操作圖形用戶界面。

語音搜索在用戶說話時(shí)提供實(shí)時(shí)視覺反饋。（圖片來源：截圖）

“這不是語義嗎？”你可能會(huì)問。如果你要和電腦對(duì)話，你是直接和電腦對(duì)話還是通過虛擬角色對(duì)話真的重要嗎？在這兩種情況下，你只是在和電腦說話！

是的，差別很細(xì)微，但很關(guān)鍵。當(dāng)單擊GUI（圖形用戶界面）中的按鈕或菜單項(xiàng)時(shí)，很明顯，我們正在操作一臺(tái)機(jī)器。人對(duì)此沒有幻想。通過用語音指令代替點(diǎn)擊，我們對(duì)人機(jī)交互做出了改進(jìn)。而另一種，使用語音助手模式，我們正在創(chuàng)建一個(gè)人與人之間的互動(dòng)的惡化版，所以，獲得了恐怖谷效應(yīng)。

而將語音功能與圖形用戶界面相結(jié)合，可能利用不同模式的力量。雖然用戶可以使用語音操作應(yīng)用程序，但他們也能夠使用傳統(tǒng)的圖形界面。這使用戶能夠在觸摸和語音之間無縫切換，并根據(jù)他們的上下文和任務(wù)選擇最佳選項(xiàng)。

例如，語音是輸入豐富信息的一種非常有效的方法。在幾個(gè)有效的選項(xiàng)中選擇，則觸摸或單擊可能更好。然后，用戶可以通過說“向我展示明天從倫敦飛往紐約的航班”來代替打字輸入和瀏覽，然后通過觸摸從列表中選擇最佳選項(xiàng)。

現(xiàn)在你可能會(huì)問：“好吧，這看起來很棒，那為什么我們以前沒有見過這樣的語音用戶界面呢？為什么科技公司大廠不為這類事情開發(fā)工具呢？”

嗯，這可能有很多原因。一個(gè)原因是，當(dāng)前的語音助手模式可能是他們從終端用戶那里獲得的數(shù)據(jù)的最佳方式。另一個(gè)原因與他們的語音技術(shù)構(gòu)建方式有關(guān)。

良好的語音用戶界面需要兩個(gè)不同的部分：

將語音轉(zhuǎn)換為文本的語音識(shí)別；
從文本中提取意義的自然語言理解組件。

第二部分是將“關(guān)掉客廳的燈”和“請(qǐng)把客廳的燈關(guān)掉”這兩句話變成同樣操作的魔法。

如果您曾經(jīng)使用過帶有顯示器的語音助手（如Siri或谷歌 Assistant），你可能會(huì)注意到，你幾乎是實(shí)時(shí)地獲得文本記錄，但在您停止說話后，系統(tǒng)需要幾秒鐘才能真正執(zhí)行你所要求的操作。這是由于語音識(shí)別和自然語言理解是依次發(fā)生的。

讓我們看看如何改變這一點(diǎn)。

四、實(shí)時(shí)口語理解：提高語音命令效率的秘訣

應(yīng)用程序?qū)τ脩糨斎氲捻憫?yīng)速度是影響應(yīng)用程序總體用戶體驗(yàn)的一個(gè)主要因素。第一代iPhone最重要的創(chuàng)新是它反應(yīng)靈敏的觸摸屏。語音用戶界面對(duì)語音輸入及時(shí)反應(yīng)的能力同樣重要。

為了在用戶和用戶界面之間建立快速的雙向信息交換循環(huán)，每當(dāng)用戶說一些可操作的事情時(shí)，啟用語音的GUI應(yīng)該能夠立即做出反應(yīng)——即使是在句子中間。這需要一種稱為流式口語理解的技術(shù)。

實(shí)時(shí)視覺反饋需要一個(gè)完全流式語音API，不僅可以實(shí)時(shí)返回對(duì)話記錄，還可以實(shí)時(shí)返回用戶意圖和實(shí)體。(圖片來源：作者)

傳統(tǒng)的基于回合的語音助手系統(tǒng)在處理用戶請(qǐng)求之前會(huì)等待用戶停止說話，與之相反，使用流式語音理解的系統(tǒng)從用戶開始說話的那一刻起就積極嘗試?yán)斫庥脩粢鈭D。一旦用戶說了一些可操作的事情，用戶界面就會(huì)立即做出反應(yīng)。

即時(shí)響應(yīng)立即驗(yàn)證系統(tǒng)正在理解用戶，并鼓勵(lì)用戶繼續(xù)。這類似于人與人之間溝通中的點(diǎn)頭或簡(jiǎn)短的“嗯”。這就能支持進(jìn)行更長、更復(fù)雜的話語。另外，如果系統(tǒng)不理解用戶或用戶出現(xiàn)錯(cuò)誤，即時(shí)反饋可以實(shí)現(xiàn)快速恢復(fù)。用戶可以立即糾正并繼續(xù)，甚至口頭糾正自己：“我想要這個(gè)，不，我的意思是，我想要那個(gè)。”

實(shí)時(shí)視覺反饋使用戶能夠自然地糾正自己，并鼓勵(lì)他們繼續(xù)語音體驗(yàn)。由于他們不會(huì)被虛擬角色弄糊涂，它們可以以類似于錯(cuò)別字的方式與可能的錯(cuò)誤聯(lián)系起來，而不是個(gè)人侮辱。這種體驗(yàn)更快、更自然，因?yàn)樘峁┙o用戶的信息不受每分鐘約150字的典型語音速率的限制。

五、結(jié)論

雖然到目前為止，語音助手一直是語音用戶界面最常用的用途，但使用自然語言響應(yīng)使其效率低下且不自然。語音是輸入信息的一種很好的方式，但聽機(jī)器說話并不是直達(dá)人心。這是語音助手的大問題。

因此，語音的未來不應(yīng)該在于與計(jì)算機(jī)的對(duì)話，而應(yīng)該是用最自然的交流方式——語音，來取代繁瑣的用戶任務(wù)。直接語音交互可用于改善Web或移動(dòng)應(yīng)用程序中的表單填寫體驗(yàn)，創(chuàng)建更好的搜索體驗(yàn)，以及實(shí)現(xiàn)更高效的應(yīng)用程序控制或?qū)Ш椒绞健?/p>

設(shè)計(jì)師和應(yīng)用程序開發(fā)人員一直在尋找減少應(yīng)用程序或網(wǎng)站摩擦的方法。使用語音模式增強(qiáng)當(dāng)前的圖形用戶界面將使用戶交互速度提高數(shù)倍，特別是在某些情況下，例如當(dāng)終端用戶在移動(dòng)設(shè)備上和旅途中以及打字困難時(shí)。事實(shí)上，即使使用臺(tái)式計(jì)算機(jī)，語音搜索也比傳統(tǒng)的搜索過濾用戶界面快五倍。

下次，當(dāng)您考慮如何使應(yīng)用程序中的特定用戶任務(wù)更易于使用、更愉快或有興趣增加轉(zhuǎn)換時(shí)，請(qǐng)考慮是否可以用自然語言準(zhǔn)確描述該用戶任務(wù)。如果是，請(qǐng)使用語音模式補(bǔ)充您的用戶界面，但不要強(qiáng)迫用戶與計(jì)算機(jī)對(duì)話。

作者：Ottomatias Peura

原文：https://www.smashingmagazine.com/2021/06/alternative-voice-ui-voice-assistants/

本文由 @怡伶設(shè)計(jì)寶藏翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App