譯文|語音助手的替代:語音用戶界面(VUI)

1 評(píng)論 4601 瀏覽 20 收藏 21 分鐘

“語音助手”這一形式已經(jīng)十分常見,它通??梢曰卮鹩脩舻哪承﹩栴},并為用戶成功地答疑解惑。不過,語音助手雖然可以解決某些用戶任務(wù),但當(dāng)任務(wù)的繁瑣程度升高時(shí),語音助手可發(fā)揮的余地便會(huì)受限。那么,可以用什么樣的方式,來解決語音助手所存在的問題呢?

前言:語音助手是目前最流行的語音用戶界面用例。然而,由于語音助理通過與用戶交談來提供反饋,因此語音助手只能解決簡(jiǎn)單的用戶任務(wù),例如設(shè)置鬧鐘或播放音樂。為了讓語音用戶界面真正取得突破,給用戶的反饋必須是可視化的,而不是聽覺的。

對(duì)大多數(shù)人來說,當(dāng)想到語音用戶界面時(shí),首先想到的是語音助手,如Siri、Amazon Alexa或谷歌Assistant。事實(shí)上,語音助手是大多數(shù)人使用語音與計(jì)算機(jī)系統(tǒng)交互的唯一環(huán)境。

雖然語音助手將語音用戶界面帶到了主流,但助理范式不是使用、設(shè)計(jì)和創(chuàng)建語音用戶界面的唯一方式,甚至不是最好的方式。

在本文中,筆者將討論語音助手所面臨的問題,并提出一種新的語音用戶界面方法,我稱之為直接語音交互。

一、語音助手是基于語音的聊天機(jī)器人

語音助手是一種使用自然語言代替圖標(biāo)和菜單作為用戶界面的軟件。語音助手通常回答用戶的問題,并積極主動(dòng)地為用戶提供幫助。

語音助手與簡(jiǎn)單直接的處理事務(wù)和指令不同,而是模仿人類對(duì)話,并雙向使用自然語言作為交互模式,這意味著它既接受用戶的輸入,又通過使用自然語言向用戶回答。

第一批助手是基于對(duì)話的問答系統(tǒng)。一個(gè)早期的例子是微軟的Clippy,它糟糕地試圖幫助微軟Office的用戶,根據(jù)它認(rèn)為用戶想要完成的任務(wù)給出指令。而如今,助手范式的一個(gè)典型用例是聊天機(jī)器人,通常用于聊天討論中擔(dān)任客服。

另一方面,語音助手是使用語音而不是打字和文本的聊天機(jī)器人。用戶的輸入不是選擇或文本,而是語音,系統(tǒng)的響應(yīng)也是發(fā)聲朗讀出來。這些助手可以是通用助手,如谷歌助手或Alexa,可以合理地回答許多問題,也可以是為特殊目的而構(gòu)建的定制助理,如快餐訂購。

盡管用戶的輸入通常只有一兩個(gè)詞,并且可以作為選擇選項(xiàng)而不是實(shí)際文本呈現(xiàn),但隨著技術(shù)的發(fā)展,人機(jī)對(duì)話將更加開放和復(fù)雜。聊天機(jī)器人和語音助手的第一個(gè)特性是使用自然語言以及對(duì)話風(fēng)格,而不是典型的移動(dòng)應(yīng)用程序或網(wǎng)站用戶體驗(yàn)的圖標(biāo)、菜單和交互風(fēng)格。

自然語言反應(yīng)的第二個(gè)決定性特征是表象人格的錯(cuò)覺。系統(tǒng)使用的語氣、質(zhì)量和語言定義了語音助手的體驗(yàn)、同理心和服務(wù)敏感性的錯(cuò)覺,以及它的人格角色。良好的助理體驗(yàn)的想法就像與一個(gè)真人打交道。

由于語音是我們最自然的交流方式,這聽起來可能很棒,但使用自然語言響應(yīng)有兩個(gè)主要問題。其中一個(gè)問題與計(jì)算機(jī)如何模仿人類有關(guān),可能會(huì)在未來隨著對(duì)話式人工智能技術(shù)的發(fā)展得到解決,但人類大腦如何處理信息的問題是一個(gè)人類問題,在可預(yù)見的未來是無法解決的。下面讓我們來看看這些問題。

二、自然語言響應(yīng)的兩個(gè)問題

語音用戶界面當(dāng)然是使用語音作為一種方式的用戶界面。但語音模式可用于兩個(gè)方向:從用戶輸入信息和從系統(tǒng)向用戶輸出信息。例如,一些電梯在用戶按下按鈕后使用語音合成來確認(rèn)用戶選擇。我們稍后將討論僅使用語音輸入信息的語音用戶界面,并使用傳統(tǒng)的圖形用戶界面將信息顯示回饋給用戶。

另一方面,語音助手使用語音進(jìn)行輸入和輸出。這種方法有兩個(gè)主要問題:

問題1:模仿人類失敗

作為人類,我們有一種天生的傾向,將類似人類的特征歸因于非人類的物體。我們?cè)陲h過的云朵中看到一個(gè)人的容貌,或者看著一塊三明治,它似乎在對(duì)我們笑。這被稱為擬人化。

這種現(xiàn)象也適用于語音助手,它是由他們的自然語言反應(yīng)觸發(fā)的。雖然圖形用戶界面可以構(gòu)建得有點(diǎn)中性,但人類不可能不開始思考某人的聲音是屬于年輕人還是老年人,或者他們是男性還是女性。因此,用戶幾乎開始認(rèn)為助理確實(shí)是人類。

然而,我們?nèi)祟惙浅I瞄L發(fā)現(xiàn)假貨。奇怪的是,越接近人類的東西,這些微小的偏差就越開始困擾我們。對(duì)于那些試圖變得像人類但卻無法達(dá)到人類標(biāo)準(zhǔn)的東西,人們會(huì)有一種毛骨悚然的感覺。在機(jī)器人和計(jì)算機(jī)動(dòng)畫中,這被稱為“恐怖谷效應(yīng)”。

我們把語音助手做得越好、越人性化,當(dāng)出現(xiàn)問題時(shí),用戶體驗(yàn)就會(huì)越令人毛骨悚然、令人失望。每個(gè)嘗試過語音助手的人可能都無意中遇到過這樣的問題: 回答一些讓人感覺愚蠢甚至粗魯?shù)膯栴}。

語音助手的恐怖谷效應(yīng)給助手的用戶體驗(yàn)帶來了一個(gè)難以克服的質(zhì)量問題。事實(shí)上,圖靈測(cè)試(以著名數(shù)學(xué)家艾倫·圖靈的名字命名)通過的條件是,當(dāng)人類評(píng)估者展示兩個(gè)代理之間的對(duì)話時(shí),不能區(qū)分哪個(gè)是機(jī)器,哪個(gè)是人。到目前為止,從未有人工智能通過。

這意味著,助手范式為類人服務(wù)體驗(yàn)設(shè)定了一個(gè)永遠(yuǎn)無法實(shí)現(xiàn)的承諾,用戶肯定會(huì)感到失望。成功的體驗(yàn)只會(huì)建立最終的失望,因?yàn)橛脩糸_始信任他們的類人助手。

問題2:順序和緩慢的相互作用

語音助理的第二個(gè)問題是,自然語言響應(yīng)的回合制性質(zhì)導(dǎo)致交互延遲。這得歸因于我們的大腦處理信息的方式。

大腦中的信息處理。(資料來源:彭聃齡《普通心理學(xué)》)

我們的大腦中有兩種類型的數(shù)據(jù)處理系統(tǒng):

  • 加工處理說話的語言系統(tǒng);
  • 專門加工處理視覺和空間信息的視覺空間系統(tǒng)。

這兩個(gè)系統(tǒng)可以并行運(yùn)行,但兩個(gè)系統(tǒng)一次只處理一件事。這就是為什么你可以一邊說話一邊開車,但你不能一邊發(fā)短信一邊開車,因?yàn)檫@兩種活動(dòng)都會(huì)發(fā)生在視覺空間系統(tǒng)中。

同樣,當(dāng)你和語音助手交談時(shí),語音助手需要保持安靜,反之亦然。這創(chuàng)造了一種回合制的對(duì)話,其中另一部分總是完全被動(dòng)的。

然而,假想一個(gè)你想和朋友討論的難題。你們可能會(huì)面對(duì)面討論,而不是通過電話討論,對(duì)嗎?這是因?yàn)樵诿鎸?duì)面的對(duì)話中,我們使用非語言溝通來向?qū)υ捇锇樘峁?shí)時(shí)的視覺反饋。這創(chuàng)建了一個(gè)雙向信息交換循環(huán),并使雙方能夠同時(shí)積極參與對(duì)話。

語音助手不會(huì)提供實(shí)時(shí)的視覺反饋。他們依靠一種稱為終點(diǎn)測(cè)定的技術(shù)來決定用戶何時(shí)停止說話,并在此之后回復(fù)。當(dāng)他們回復(fù)時(shí),他們不會(huì)同時(shí)接受用戶的任何輸入。體驗(yàn)完全是單向和回合制的。

雙向實(shí)時(shí)面對(duì)面的對(duì)話,雙方可以立即對(duì)視覺和語言信號(hào)做出反應(yīng)。這利用了人類大腦的不同信息處理系統(tǒng),使對(duì)話變得更加順暢和高效。

語音助手卡在單向模式下,因?yàn)樗麄兺瑫r(shí)使用自然語言作為輸入和輸出通道。雖然語音輸入的速度是打字輸入的四倍,但處理消化速度明顯慢于閱讀。由于信息需要按順序處理,所以這種方法只適用于簡(jiǎn)單的命令,如“關(guān)燈”,這些命令不需要助手的太多輸出。

在前文,我承諾討論僅使用語音輸入用戶數(shù)據(jù)的語音用戶界面。這種語音用戶界面受益于語音用戶界面的最佳部分——自然、快速和易于使用——但不受恐怖谷和順序交互的影響。

讓我們考慮一下這個(gè)替代方案。

三、語音助手的更好選擇

克服語音助手中這些問題的解決方案是放棄自然語言響應(yīng),代之以實(shí)時(shí)視覺反饋。將反饋切換到視覺,將使用戶能夠同時(shí)提供和獲得反饋。這將使應(yīng)用程序能夠在不中斷用戶的情況下做出反應(yīng),并啟用雙向信息流。由于信息流是雙向的,其吞吐量更大。

目前,語音助手最常用的用例是設(shè)置鬧鐘、播放音樂、查看天氣和詢問簡(jiǎn)單的問題。所有這些都是低風(fēng)險(xiǎn)的任務(wù),在失敗時(shí)不會(huì)讓用戶太沮喪。

正如《華爾街日?qǐng)?bào)》的大衛(wèi)·皮爾斯曾經(jīng)寫道:

我無法想象通過語音助手預(yù)訂航班或管理我的預(yù)算,或者通過對(duì)我的揚(yáng)聲器大喊食材配料來跟蹤我的飲食。

——《華爾街日?qǐng)?bào)》的大衛(wèi)·皮爾斯

這些是信息密集型任務(wù),需要正確處理。

然而,語音用戶界面終會(huì)走向失敗。關(guān)鍵是盡快解決這個(gè)問題。在鍵盤上打字時(shí),甚至在面對(duì)面的對(duì)話中,都會(huì)出現(xiàn)很多錯(cuò)誤。然而,這一點(diǎn)也不令人沮喪,因?yàn)橛脩糁恍鑶螕敉烁癫⒃俅螄L試或請(qǐng)求澄清即可恢復(fù)。

這種從錯(cuò)誤中快速恢復(fù)的方式使用戶能夠提高效率,并且不會(huì)迫使他們與助手進(jìn)行奇怪的對(duì)話。

使用語音預(yù)訂機(jī)票。

直接語音互動(dòng)

在大多數(shù)應(yīng)用程序中,操作是通過操作屏幕上的圖形元素、戳或滑動(dòng)(在觸摸屏上)、單擊鼠標(biāo)和/鍵,或按下鍵盤上的按鈕來執(zhí)行的。語音輸入可以作為操作這些圖形元素的額外選項(xiàng)或模式添加。這種類型的互動(dòng)可以稱為直接語音交互。

直接語音交互和語音助手之間的區(qū)別在于,用戶不是要求語音助理化身去執(zhí)行任務(wù),而是直接用語音操作圖形用戶界面。

語音搜索在用戶說話時(shí)提供實(shí)時(shí)視覺反饋。(圖片來源:截圖)

“這不是語義嗎?”你可能會(huì)問。如果你要和電腦對(duì)話,你是直接和電腦對(duì)話還是通過虛擬角色對(duì)話真的重要嗎?在這兩種情況下,你只是在和電腦說話!

是的,差別很細(xì)微,但很關(guān)鍵。當(dāng)單擊GUI(圖形用戶界面)中的按鈕或菜單項(xiàng)時(shí),很明顯,我們正在操作一臺(tái)機(jī)器。人對(duì)此沒有幻想。通過用語音指令代替點(diǎn)擊,我們對(duì)人機(jī)交互做出了改進(jìn)。而另一種,使用語音助手模式,我們正在創(chuàng)建一個(gè)人與人之間的互動(dòng)的惡化版,所以,獲得了恐怖谷效應(yīng)。

而將語音功能與圖形用戶界面相結(jié)合,可能利用不同模式的力量。雖然用戶可以使用語音操作應(yīng)用程序,但他們也能夠使用傳統(tǒng)的圖形界面。這使用戶能夠在觸摸和語音之間無縫切換,并根據(jù)他們的上下文和任務(wù)選擇最佳選項(xiàng)。

例如,語音是輸入豐富信息的一種非常有效的方法。在幾個(gè)有效的選項(xiàng)中選擇,則觸摸或單擊可能更好。然后,用戶可以通過說“向我展示明天從倫敦飛往紐約的航班”來代替打字輸入和瀏覽,然后通過觸摸從列表中選擇最佳選項(xiàng)。

現(xiàn)在你可能會(huì)問:“好吧,這看起來很棒,那為什么我們以前沒有見過這樣的語音用戶界面呢?為什么科技公司大廠不為這類事情開發(fā)工具呢?”

嗯,這可能有很多原因。一個(gè)原因是,當(dāng)前的語音助手模式可能是他們從終端用戶那里獲得的數(shù)據(jù)的最佳方式。另一個(gè)原因與他們的語音技術(shù)構(gòu)建方式有關(guān)。

良好的語音用戶界面需要兩個(gè)不同的部分:

  1. 將語音轉(zhuǎn)換為文本的語音識(shí)別
  2. 從文本中提取意義的自然語言理解組件。

第二部分是將“關(guān)掉客廳的燈”和“請(qǐng)把客廳的燈關(guān)掉”這兩句話變成同樣操作的魔法。

如果您曾經(jīng)使用過帶有顯示器的語音助手(如Siri或谷歌 Assistant),你可能會(huì)注意到,你幾乎是實(shí)時(shí)地獲得文本記錄,但在您停止說話后,系統(tǒng)需要幾秒鐘才能真正執(zhí)行你所要求的操作。這是由于語音識(shí)別和自然語言理解是依次發(fā)生的。

讓我們看看如何改變這一點(diǎn)。

四、實(shí)時(shí)口語理解:提高語音命令效率的秘訣

應(yīng)用程序?qū)τ脩糨斎氲捻憫?yīng)速度是影響應(yīng)用程序總體用戶體驗(yàn)的一個(gè)主要因素。第一代iPhone最重要的創(chuàng)新是它反應(yīng)靈敏的觸摸屏。語音用戶界面對(duì)語音輸入及時(shí)反應(yīng)的能力同樣重要。

為了在用戶和用戶界面之間建立快速的雙向信息交換循環(huán),每當(dāng)用戶說一些可操作的事情時(shí),啟用語音的GUI應(yīng)該能夠立即做出反應(yīng)——即使是在句子中間。這需要一種稱為流式口語理解的技術(shù)。

實(shí)時(shí)視覺反饋需要一個(gè)完全流式語音API,不僅可以實(shí)時(shí)返回對(duì)話記錄,還可以實(shí)時(shí)返回用戶意圖和實(shí)體。(圖片來源:作者)

傳統(tǒng)的基于回合的語音助手系統(tǒng)在處理用戶請(qǐng)求之前會(huì)等待用戶停止說話,與之相反,使用流式語音理解的系統(tǒng)從用戶開始說話的那一刻起就積極嘗試?yán)斫庥脩粢鈭D。一旦用戶說了一些可操作的事情,用戶界面就會(huì)立即做出反應(yīng)。

即時(shí)響應(yīng)立即驗(yàn)證系統(tǒng)正在理解用戶,并鼓勵(lì)用戶繼續(xù)。這類似于人與人之間溝通中的點(diǎn)頭或簡(jiǎn)短的“嗯”。這就能支持進(jìn)行更長、更復(fù)雜的話語。另外,如果系統(tǒng)不理解用戶或用戶出現(xiàn)錯(cuò)誤,即時(shí)反饋可以實(shí)現(xiàn)快速恢復(fù)。用戶可以立即糾正并繼續(xù),甚至口頭糾正自己:“我想要這個(gè),不,我的意思是,我想要那個(gè)。”

實(shí)時(shí)視覺反饋使用戶能夠自然地糾正自己,并鼓勵(lì)他們繼續(xù)語音體驗(yàn)。由于他們不會(huì)被虛擬角色弄糊涂,它們可以以類似于錯(cuò)別字的方式與可能的錯(cuò)誤聯(lián)系起來,而不是個(gè)人侮辱。這種體驗(yàn)更快、更自然,因?yàn)樘峁┙o用戶的信息不受每分鐘約150字的典型語音速率的限制。

五、結(jié)論

雖然到目前為止,語音助手一直是語音用戶界面最常用的用途,但使用自然語言響應(yīng)使其效率低下且不自然。語音是輸入信息的一種很好的方式,但聽機(jī)器說話并不是直達(dá)人心。這是語音助手的大問題。

因此,語音的未來不應(yīng)該在于與計(jì)算機(jī)的對(duì)話,而應(yīng)該是用最自然的交流方式——語音,來取代繁瑣的用戶任務(wù)。直接語音交互可用于改善Web或移動(dòng)應(yīng)用程序中的表單填寫體驗(yàn),創(chuàng)建更好的搜索體驗(yàn),以及實(shí)現(xiàn)更高效的應(yīng)用程序控制或?qū)Ш椒绞健?/p>

設(shè)計(jì)師和應(yīng)用程序開發(fā)人員一直在尋找減少應(yīng)用程序或網(wǎng)站摩擦的方法。使用語音模式增強(qiáng)當(dāng)前的圖形用戶界面將使用戶交互速度提高數(shù)倍,特別是在某些情況下,例如當(dāng)終端用戶在移動(dòng)設(shè)備上和旅途中以及打字困難時(shí)。事實(shí)上,即使使用臺(tái)式計(jì)算機(jī),語音搜索也比傳統(tǒng)的搜索過濾用戶界面快五倍。

下次,當(dāng)您考慮如何使應(yīng)用程序中的特定用戶任務(wù)更易于使用、更愉快或有興趣增加轉(zhuǎn)換時(shí),請(qǐng)考慮是否可以用自然語言準(zhǔn)確描述該用戶任務(wù)。如果是,請(qǐng)使用語音模式補(bǔ)充您的用戶界面,不要強(qiáng)迫用戶與計(jì)算機(jī)對(duì)話。

作者:Ottomatias Peura

原文:https://www.smashingmagazine.com/2021/06/alternative-voice-ui-voice-assistants/

本文由 @怡伶設(shè)計(jì)寶藏 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 很認(rèn)真的看完了,受益

    來自北京 回復(fù)