如何設(shè)計(jì)智能語(yǔ)音助手?
![](http://image.woshipm.com/wp-files/img/66.jpg)
隨著人工智能的發(fā)展,智能語(yǔ)音也在不斷取得重大的突破,那么設(shè)計(jì)一個(gè)智能語(yǔ)音助手需要交付些什么?和設(shè)計(jì)VUI時(shí)需要遵守哪些基本設(shè)計(jì)原則?來(lái)看看作者的回答。
近年隨著人工智能的熱潮,創(chuàng)新者紛紛圍繞算力、算法、數(shù)據(jù)這AI三要素來(lái)對(duì)某個(gè)場(chǎng)景應(yīng)用落地,其中智能語(yǔ)音在2016年被美國(guó)權(quán)威雜志《麻省理工科技評(píng)論》評(píng)為當(dāng)年十大突破技術(shù),2017年全球智能語(yǔ)音市場(chǎng)規(guī)模更已超百億。
但技術(shù)的發(fā)展往往不是一蹴而就的,綜觀智能語(yǔ)音產(chǎn)業(yè)的發(fā)展歷程,也算是曲折迂回,它大致可劃分為四個(gè)階段:
- 第一階段是技術(shù)萌芽階段(20世紀(jì)50~70年代),以孤立、少量的詞匯為主的句子識(shí)別,并通過(guò)關(guān)鍵詞匹配實(shí)現(xiàn)簡(jiǎn)單命令操作,其主要的標(biāo)志是AT&T貝爾實(shí)驗(yàn)室開(kāi)發(fā)的Audrey語(yǔ)音識(shí)別系統(tǒng),它能夠通過(guò)跟蹤語(yǔ)音中的共振峰,當(dāng)識(shí)別10個(gè)英文或數(shù)字時(shí),正確率可高達(dá)98%。
- 第二階段是技術(shù)突破階段(20世紀(jì)80年代),語(yǔ)音識(shí)別和自然語(yǔ)言處理技術(shù)有了較大進(jìn)展。智能語(yǔ)音技術(shù)研究由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)思路開(kāi)始轉(zhuǎn)向基于統(tǒng)計(jì)模型(HMM)的技術(shù)思路,并再次提出了將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語(yǔ)音識(shí)別問(wèn)題的技術(shù)思路。
- 第三階段是產(chǎn)業(yè)化階段(20世紀(jì)90年代到21世紀(jì)初),智能語(yǔ)音技術(shù)由研究走向?qū)嵱貌㈤_(kāi)始產(chǎn)業(yè)化,以1997年IBM推出的ViaVoice為重要標(biāo)志。自此,智能語(yǔ)音產(chǎn)品開(kāi)始進(jìn)入呼叫中心、家電、汽車(chē)等各個(gè)領(lǐng)域。比如,上世紀(jì)70年代由美國(guó)國(guó)防部遠(yuǎn)景研究計(jì)劃局資助的,旨在支持語(yǔ)言理解系統(tǒng)的研究開(kāi)發(fā)工作的計(jì)劃DARPA。進(jìn)入90年代后,研究重點(diǎn)已轉(zhuǎn)向識(shí)別裝置中的自然語(yǔ)言處理部分,識(shí)別任務(wù)設(shè)定為“航空旅行信息檢索”。
- 第四個(gè)階段是快速應(yīng)用階段(2010年以后),以蘋(píng)果Siri的發(fā)布為重要引爆點(diǎn),智能語(yǔ)音應(yīng)用領(lǐng)域由傳統(tǒng)行業(yè)開(kāi)始向移動(dòng)互聯(lián)網(wǎng)等新興領(lǐng)域延伸。在發(fā)達(dá)國(guó)家,大量的語(yǔ)音識(shí)別產(chǎn)品已經(jīng)進(jìn)入市場(chǎng)和服務(wù)領(lǐng)域并取得很好的效果,比如Siri、Cortana這類(lèi)集成了視覺(jué)和語(yǔ)音信息的內(nèi)置應(yīng)用,或者像Amazon Echo、Google Home這樣的純語(yǔ)音設(shè)備。
智能語(yǔ)音產(chǎn)業(yè)發(fā)展歷程(來(lái)源:廣證恒生)
而在人們的日常生活中,相信大家已經(jīng)對(duì)Siri、小愛(ài)同學(xué)這些手機(jī)智能語(yǔ)音助手相當(dāng)熟悉了,在不久的物聯(lián)網(wǎng)時(shí)代,人機(jī)交互無(wú)處不在,語(yǔ)音作為人類(lèi)獲取信息最自然、便捷的方式,使用頻率將會(huì)越來(lái)越高,當(dāng)用戶(hù)使用習(xí)慣后,智能語(yǔ)音將會(huì)融入人們生活的方方面面。
縱觀計(jì)算機(jī)用戶(hù)界面的發(fā)展,一般可認(rèn)為是經(jīng)歷了從鍵盤(pán),到鼠標(biāo)、到觸屏、到語(yǔ)音這樣的發(fā)展歷程,人機(jī)交互也逐步經(jīng)歷了基本交互、圖形交互、語(yǔ)音交互、體感交互。在未來(lái),即使技術(shù)已經(jīng)應(yīng)用到體感交互,語(yǔ)音交互依然會(huì)是體感交互中的重要環(huán)節(jié)。
History of Computer Interfaces
語(yǔ)音這種交互方式之所以能夠迅速發(fā)展,得益于語(yǔ)音得天獨(dú)厚的優(yōu)勢(shì)。
因此,語(yǔ)音用戶(hù)交互界面(英文:Voice User Interface,簡(jiǎn)稱(chēng)VUI)設(shè)計(jì)正逐漸走進(jìn)了產(chǎn)品經(jīng)理和交互設(shè)計(jì)師的視野,如何運(yùn)用產(chǎn)品和設(shè)計(jì)思維拓展智能語(yǔ)音的應(yīng)用場(chǎng)景,探索和應(yīng)用新的交互方式,讓技術(shù)和人文相融合,使產(chǎn)品更好地服務(wù)于用戶(hù),這成為產(chǎn)品經(jīng)理和交互設(shè)計(jì)師未來(lái)值得探討的話(huà)題。
但目前無(wú)論是國(guó)內(nèi)國(guó)外,探討這方面的文章少之又少。因此小編想談一談設(shè)計(jì)一個(gè)智能語(yǔ)音助手需要交付些什么,和設(shè)計(jì)VUI時(shí)需要遵守哪些基本設(shè)計(jì)原則,以供大家參考。
一、智能語(yǔ)音VUI項(xiàng)目的交付物
有產(chǎn)品經(jīng)理從業(yè)經(jīng)驗(yàn)的人都會(huì)清楚產(chǎn)品經(jīng)理經(jīng)常撰寫(xiě)的文檔有BRD、MRD、PRD等,那么若要設(shè)計(jì)一個(gè)VUI項(xiàng)目,那么它的交付項(xiàng)又應(yīng)包括什么呢?一般來(lái)說(shuō),它包括了以下四種交付物:
1.示例對(duì)話(huà)
示例對(duì)話(huà)是系統(tǒng)和用戶(hù)之間可能產(chǎn)生交互行為的預(yù)設(shè)對(duì)話(huà),對(duì)話(huà)看起來(lái)就像電影劇本一樣,包括兩個(gè)主要角色之間來(lái)回往復(fù)對(duì)話(huà)。在設(shè)計(jì)示例對(duì)話(huà)時(shí),要針對(duì)用戶(hù)可能出現(xiàn)的各個(gè)場(chǎng)景去設(shè)計(jì)出多種不同示例對(duì)話(huà),多種不同的示例對(duì)話(huà)可以讓用戶(hù)聽(tīng)起來(lái)感覺(jué)不那么死板,因?yàn)榧偃糁辉O(shè)計(jì)一種,用戶(hù)每次都會(huì)遇到相同的反饋,這樣會(huì)讓人聽(tīng)起來(lái)更像是一個(gè)機(jī)器。
此外,還應(yīng)該考慮到一些異常情況,這樣讓用戶(hù)問(wèn)一些偏門(mén)的問(wèn)題也得到回復(fù),大大提高了用戶(hù)對(duì)系統(tǒng)的預(yù)期。
所以設(shè)計(jì)示例對(duì)話(huà)和設(shè)計(jì)后臺(tái)系統(tǒng)比較類(lèi)似,以設(shè)計(jì)電商后臺(tái)系統(tǒng)為例,用戶(hù)在前端點(diǎn)擊“退貨”操作,這時(shí)已購(gòu)買(mǎi)商品所處的時(shí)間節(jié)點(diǎn)可以分為未出庫(kù)、已出庫(kù)但沒(méi)發(fā)貨,已發(fā)貨、已收貨這幾種情況,針對(duì)每一種情況都要作出相應(yīng)的處理,如果沒(méi)有仔細(xì)考慮就很難得到一個(gè)穩(wěn)健實(shí)用的系統(tǒng)了。
2.流程圖
當(dāng)編寫(xiě)完各種示例對(duì)話(huà)后,就應(yīng)該開(kāi)始寫(xiě)流程圖了,流程圖是用來(lái)展示VUI所有可能發(fā)生的路徑的圖示。比如一輪對(duì)話(huà)后,流程圖需要展示下一個(gè)狀態(tài)分支的所有方式,方式不一定要羅列所有的交互或示例對(duì)話(huà),它也可以是功能的分組、文本的分組
等。
3.提示列表
由于語(yǔ)音技術(shù)的限制,目前還沒(méi)有無(wú)所不知無(wú)所不能的語(yǔ)音系統(tǒng),所以設(shè)計(jì)一個(gè)提示列表是相對(duì)必要的,它可以讓用戶(hù)知道系統(tǒng)真正能做的事有哪些。如果沒(méi)有屏幕可以使用配音演員或語(yǔ)音合成來(lái)播放提示列表,如果有屏幕則可以多模態(tài)展示,將視覺(jué)和聽(tīng)覺(jué)相結(jié)合,如Siri、Cortana。
4.產(chǎn)品原型
如果這是一個(gè)多模態(tài)產(chǎn)品,有屏幕,支持觸摸交互,這個(gè)產(chǎn)品原型就和普通的產(chǎn)品原型一樣了,比如用Axure制作的低保真產(chǎn)品原型。
二、智能語(yǔ)音VUI的基本設(shè)計(jì)原則
在設(shè)計(jì)完基本的流程并完成一些示例對(duì)話(huà)后,就可以開(kāi)始專(zhuān)注一些重要的細(xì)節(jié),這樣才能讓系統(tǒng)更加健壯和人性化。
細(xì)節(jié)一:確認(rèn)策略
有人可能會(huì)問(wèn)確認(rèn)策略到底是什么意思?其實(shí),在人與人的溝通中,每個(gè)人都是渴望被理解的,但是人與人溝通也會(huì)經(jīng)常出現(xiàn)理解錯(cuò)誤、聽(tīng)不清楚、詞不達(dá)意等種種問(wèn)題,這些都需要傾聽(tīng)者去和對(duì)方確認(rèn)自己所理解的意思是不是就是對(duì)方所想表達(dá)的意思。
因此在設(shè)計(jì)VUI也往往需要向用戶(hù)進(jìn)行確認(rèn),而系統(tǒng)良好的確認(rèn)策略可以確保用戶(hù)體驗(yàn),保證對(duì)話(huà)的流暢度和準(zhǔn)確度,讓用戶(hù)知道系統(tǒng)已經(jīng)理解了自己的話(huà)。在考慮確認(rèn)策略的時(shí)候,往往需要考慮以下幾點(diǎn):
過(guò)度的確認(rèn)雖然可以保證信息的準(zhǔn)確性,但是也會(huì)讓人厭煩,因此選用合適的確認(rèn)策略方法也是非常重要的,它能更有效率地保證信息的準(zhǔn)確性,以下就是一些常見(jiàn)的確認(rèn)策略的方法。
細(xì)節(jié)二:是采用命令-控制模式還是對(duì)話(huà)模式?
VUI一般都是采用“命令-控制模式”,每當(dāng)用戶(hù)想說(shuō)話(huà)的時(shí)候,必須給出明確的指令,但是隨著用戶(hù)對(duì)系統(tǒng)的對(duì)話(huà)性要求升高,另一種更自然的輪流對(duì)話(huà)設(shè)計(jì)模式越來(lái)越普及,如何把這兩種對(duì)話(huà)模式合理利用起來(lái)也是設(shè)計(jì)者需要考慮的問(wèn)題。
為了讓對(duì)話(huà)更加人性化,一般在對(duì)話(huà)模式中加進(jìn)一些對(duì)話(huà)式標(biāo)識(shí),讓用戶(hù)了解到交談的進(jìn)展和情況,讓對(duì)話(huà)更加自然,用戶(hù)的參與度也會(huì)更高。
加進(jìn)對(duì)話(huà)式標(biāo)識(shí)的最佳例子莫過(guò)于是2018年谷歌I/O大會(huì)中Google Assistant和理發(fā)店之間的語(yǔ)音互動(dòng)了,下面是雙方之間的對(duì)話(huà)。
加入了對(duì)話(huà)式標(biāo)識(shí)的Google Assistant表現(xiàn)的流暢自然,一句“嗯哼”的通用確認(rèn)更是出乎所有人的意料,讓人類(lèi)絲毫沒(méi)有注意到自己其實(shí)是在和AI對(duì)話(huà)。
細(xì)節(jié)三:異常錯(cuò)誤如何處理?
谷歌的設(shè)計(jì)主管ABI JONES說(shuō)過(guò):
“當(dāng)你與人類(lèi)交談時(shí),永遠(yuǎn)不會(huì)出現(xiàn)不可恢復(fù)的錯(cuò)誤狀態(tài)?!?/p>
而系統(tǒng)總會(huì)發(fā)生錯(cuò)誤,若沒(méi)有對(duì)應(yīng)的異常處理,則是不可恢復(fù)的錯(cuò)誤,這會(huì)降低用戶(hù)對(duì)系統(tǒng)的期望值,因此如何優(yōu)雅地處理錯(cuò)誤是每一位設(shè)計(jì)者需要著重考慮的。
細(xì)節(jié)四:其他的一些設(shè)計(jì)原則
美國(guó)著名語(yǔ)言哲學(xué)家格賴(lài)斯,在《Logicand Conversation》(1975)一文中認(rèn)為在人們交際溝通過(guò)程中,溝通的雙方都在有意無(wú)意地遵循著合作原則,以便更加高效率地完成交際任務(wù),他提及到在談話(huà)中往往遵守的合作原則中的四個(gè)范疇:
因此,若要打造一個(gè)更加類(lèi)人的VUI,符合合作原則可以讓用戶(hù)免受困惑和挫敗,因此,下面說(shuō)到的一些基本的設(shè)計(jì)原則也需要持續(xù)打磨和優(yōu)化,以便符合合作原則。
最后,雖然VUI在方方面面都在模仿人類(lèi)的溝通方式,但是VUI更像是一個(gè)工具型產(chǎn)品,讓它更像人的目的是為了讓系統(tǒng)更高效地解決用戶(hù)的問(wèn)題,上面提及的概念基本上都是來(lái)自互動(dòng)式語(yǔ)音應(yīng)答(IVR)的經(jīng)驗(yàn)總結(jié)發(fā)展的,充其量只是VUI設(shè)計(jì)的冰山一角。
倘若有機(jī)會(huì),下一篇文章還會(huì)對(duì)每一個(gè)細(xì)節(jié)具體展開(kāi)陳述,還有闡述諸如應(yīng)該如何處理否定、如何應(yīng)對(duì)不同語(yǔ)境、應(yīng)怎么設(shè)計(jì)喚醒詞等進(jìn)階技巧,或者是對(duì)語(yǔ)音識(shí)別技術(shù)的技術(shù)介紹。
作者:——,多年互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)經(jīng)驗(yàn),曾從業(yè)過(guò)多款不同行業(yè)的產(chǎn)品策劃和運(yùn)營(yíng)。
本文由 @—— 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來(lái)自 unsplash,基于 CC0 協(xié)議
請(qǐng)問(wèn)下對(duì)于語(yǔ)音助手怎么量化功能迭代效果呢?日活和留存感覺(jué)波動(dòng)太大了
請(qǐng)問(wèn)文章如何轉(zhuǎn)載?
學(xué)習(xí)了,寫(xiě)的很好,剛好自己正在做智能客服,但是加進(jìn)對(duì)話(huà)式標(biāo)識(shí)只能做到一輪
很贊的讀書(shū)筆記哦~ 最近也在看這本書(shū) 一直沒(méi)有時(shí)間整理 后面也要學(xué)習(xí) 做成ppt的格式 方便閱讀
請(qǐng)問(wèn)什么書(shū)?
請(qǐng)問(wèn)這是哪本書(shū)?
語(yǔ)音設(shè)計(jì)提幾點(diǎn)建議,拋磚引玉
1.邊輸邊譯功能,給予用戶(hù)實(shí)時(shí)反饋。衡量語(yǔ)音轉(zhuǎn)化成文字是否準(zhǔn)確和語(yǔ)義連貫流暢
2.黑色浮窗,拒絕阻斷提醒。明顯感知正在說(shuō)話(huà)。可以讓用戶(hù)大聲更響亮集中和沉浸體驗(yàn)
3.Ai化,將傳統(tǒng)手勢(shì)行為模擬成語(yǔ)音指令,提升App科技館
4.根據(jù)聲紋強(qiáng)弱判斷用戶(hù)是否說(shuō)完,說(shuō)完之后直接觸發(fā)下一個(gè)行為
5. Spoken language understanding,結(jié)合上下文深入語(yǔ)義理解,關(guān)鍵詞特征提取 語(yǔ)義邏輯理解 意圖識(shí)別
針對(duì)第四條,VAD端點(diǎn)檢測(cè)可以實(shí)現(xiàn)
強(qiáng)烈期待下一篇文章
寫(xiě)的不錯(cuò),用心了,期待下一篇
說(shuō)的非常好,持續(xù)關(guān)注,超贊??