語音交互優(yōu)勢場景產(chǎn)品設(shè)計
語音交互逐漸在更多的場景里替代可視化交互,或者賦能可視化交互。上世紀(jì)80年代語音交互技術(shù)就出現(xiàn)在計算機(jī)里了,為什么好像最近幾年才真正走入大眾的生活中?
其實(shí)語音交互的發(fā)展經(jīng)歷了三個階段:
- 第一階段是上世紀(jì)80年代,語音交互能夠?qū)崿F(xiàn)一問一答,但不能理解上下文,不能連續(xù)對話。隨著人工智能深度學(xué)習(xí)算法的發(fā)展,計算機(jī)語義理解的能力越來越強(qiáng);
- 大約在2009年的時候,隨著siri的出現(xiàn),進(jìn)入第二階段,能有問有答,能夠理解上下文,但是這種應(yīng)用場景還不太普及;
- 第三階段,2014年Amazon Echo的出現(xiàn),實(shí)現(xiàn)了應(yīng)用的革新,拓展了遠(yuǎn)場交互的場景,2017年的時候智能音箱的快速發(fā)展才使得語音交互的方式才逐漸走入大眾的視野。
語音交互的技術(shù)的實(shí)現(xiàn)包括三個環(huán)節(jié):聽(ASR)、語義理解(NLP)、和說(TTS)。
- 聽:把語音識別成文字,用的是ASR技術(shù)。
- 語義理解:把文字輸入轉(zhuǎn)化為文字輸出。通過語法判斷、上下文理解、關(guān)系理解、知識圖譜等技術(shù)。就是理解文字的含義后,把想反饋的回答以文字表達(dá)出來,使用NLP技術(shù)。(把流程和技能歸到這一環(huán)節(jié))
- 說:把文字合成為語音,用的是TTS技術(shù)。
相比于成熟的可視化交互,語音交互的場景還有許多可以挖掘的方面。相比于可視化的交互,哪些場景下人們更傾向于語音交互呢?
本文從不同語音交互動機(jī)進(jìn)行分析,探討一下語音交互的產(chǎn)品設(shè)計。
首先,語音交互的場景很多,在不同的場景下,人們使用語音交互的動機(jī)大致可以歸納為以下四種:
- 更快:省去信息填寫、省去界面操作等;
- 更輕便:更輕的硬件攜帶成本;
- 學(xué)習(xí)成本更低:相比可視化更貼合用戶使用習(xí)慣;
- 被動信息獲取成本更低:信息觸達(dá)用戶的方式更高效。
以下詳細(xì)分析一下這四種動機(jī)的場景和產(chǎn)品設(shè)計。
更快
語音交互主要使用動機(jī)之一是快??梢暬换グ言S多復(fù)雜的業(yè)務(wù)縮短到了幾分鐘以內(nèi),而語音交互進(jìn)一步把幾分鐘的流程縮短為秒的級別,因?yàn)槿苏f一句話大概也就3-20秒吧。
這也是語音交互在應(yīng)用中的主要優(yōu)勢,場景舉例:
小N感覺身體有點(diǎn)不舒服,想去醫(yī)院看一下,打算先預(yù)約掛號。
方案一:在手機(jī)上找到預(yù)約的app,按流程進(jìn)行預(yù)約。找到想去的醫(yī)院、選擇科室、選擇日期、選擇或輸入自己的醫(yī)??ǖ刃畔ⅲ缓蟠_認(rèn)掛號預(yù)約并支付。
方案二:對語?助?說,“?愛同學(xué),幫我預(yù)約某某醫(yī)院后天上午內(nèi)科的普通掛號”,語?助?完成任務(wù)后,回復(fù)“已預(yù)約后天上午某某醫(yī)院的內(nèi)科的普通掛號,請在?機(jī)上確認(rèn)?付?!?/p>
在這個場景中,圖形界面流程與語?流程的對?:
很明顯,AI的語義理解能力把“查找和選擇”的行為高效地代勞了,原本界面操作要花去5-10分鐘的事情,語音交互用幾十秒完成了。哪些情況下語音交互能體現(xiàn)出這種高效性?在用戶熟悉、高頻、復(fù)雜流程的場景中能體現(xiàn),比如 點(diǎn)餐、購物、出行等。
語音交互的快速性還會在以下幾個方面中體現(xiàn)出來:
數(shù)據(jù)存儲
語音的信息錄入門檻高,所以從效率自然發(fā)展的角度來說,要么減少錄入次數(shù),要么加速錄入過程。因?yàn)椤案臁边@種動機(jī)容易出現(xiàn)在高頻場景,所以比起加速錄入,減少錄入次數(shù)是更明智的選擇。
既然要減少錄入次數(shù),那么信息就必須錄入后存儲起來,所以語音交互的用戶信息存儲量有增大的趨勢。而且隨著用戶信息存儲量的增加,語音交互的效率提升會越來越明顯,“快”的優(yōu)勢就會發(fā)揮出來。所以,數(shù)據(jù)存儲在用戶語音交互“更快”上會發(fā)揮重要作用。
聲紋識別無縫登錄
聲紋識別技術(shù)的應(yīng)用也是語音交互“快”的重要環(huán)節(jié)。聲紋識別就是以聲識人,準(zhǔn)確率高達(dá)99.7%,已經(jīng)應(yīng)用在一些考勤、門禁系統(tǒng)中。這種技術(shù)用在登錄上,相比可視化的登錄方式,是比“一鍵登錄”還要快的登錄方式。因?yàn)榈卿涍^程,用戶可以完全無感知地完成,一句喚醒詞就能識別出身份,很多的授權(quán)流程就直接完成了。
多輪對話
多輪對話也是語音快速性的重要環(huán)節(jié)。上述醫(yī)院預(yù)約的場景中雖然流程看起來很短,但一句話完成的交互,在實(shí)際中大概率會引起多輪對話。引起多輪對話的原因有可能是信息更改,也有可能是信息補(bǔ)充。比如醫(yī)院掛號會需要選擇主治醫(yī)師,或者當(dāng)天的時間約滿了需要改時間等等。
總的來說,多輪對話這種交互方式,在快速性上會從以下幾個方面發(fā)揮優(yōu)勢:
(1)快速修正
語音對話要修正某個信息,可以保證其他信息不改變。比如上面醫(yī)院的例子中,用戶選擇了醫(yī)院、科室、時間。如果用戶想修改科室,在圖形界面中需要返回到上一步,然后更改科室,重新選擇時間。但語音交互改了科室,不用重新選時間。
流程對比如下:
所以,流程越長語音交互節(jié)約的重復(fù)操作越多,優(yōu)勢越明顯。
(2)智能匹配
語音對話中,語音的智能匹配推薦也是幫助用戶節(jié)省流程中重復(fù)選擇的時間。比如剛才醫(yī)院那個場景中,如果用戶要更改醫(yī)院,但是另一家醫(yī)院沒有相同名字的門診,比如有的醫(yī)院沒有呼吸科,只有普通內(nèi)科。用戶想更換一家醫(yī)院的時候,如果沒有直接對應(yīng)的相同的科室,語音助手可以智能推薦同類的科室,用戶無需重新比對和搜索。就像這樣:
如上所示,語音智能匹配可以省略很多重復(fù)的流程。更深一些的智能性,比如智能分診,不僅僅選擇相似的,甚至直接可以根據(jù)用戶對病情的描述,分析用戶的病情推薦最匹配的門診。隨著語音技術(shù)的發(fā)展,智能匹配推薦在語音交互中可以應(yīng)用地?zé)o處不在,會極大加速語音交互的效率。
(3)中斷銜接
智能語音對上下文理解的能力,使得語音交互在對話中斷后,也可以直接地銜接上,避免重復(fù)走流程。比如:
?N:”?愛同學(xué),幫我預(yù)約某某醫(yī)院明天上午內(nèi)科的普通掛號?!?/p>
語音助手:“某某醫(yī)院明天上午內(nèi)科已約滿,后天上午可預(yù)約,要為你預(yù)約后天上午嗎?”
小N:“我想聽首歌。(用戶中斷了預(yù)約的對話)”
語音助手:“好的,一起來聽音樂?!保ㄒ魳讽懫穑?br /> 小N:“剛剛醫(yī)院預(yù)約改為上午吧?!保ㄓ脩翥暯由蠈υ挘?br /> 語音助手:(搜索剛才的對話記憶,以及用戶信息)“好的,已預(yù)約后天上午某某醫(yī)院的內(nèi)科的普通掛號,請在手機(jī)上確認(rèn)支付?!?/p>
總的來說,語音交互在高頻、復(fù)雜業(yè)務(wù)流程的場景中,相比圖形化交互,在快速性上還是有很多優(yōu)勢的。
更輕便
第二個語音交互動機(jī)是輕便性。在某些場景中,語音交互的方式可以免去許多額外的設(shè)備,比如:
小P是AAA公司的員工,今天要給部門開會,開會前將ppt上傳到了云端。公司的語音系統(tǒng)存儲了所有員工的聲紋信息,小P在會議室時,對語音助手說,“小度,打開投影儀,打開人工智能調(diào)研PPT”,語音助手打開投影儀,查詢到小P的身份,登錄后訪問其云盤數(shù)據(jù),打開了PPT。
在上述場景中,無語音交互流程和有語音交互流程對比:
如上所示,有語音交互時,U盤這類存儲設(shè)備、PC和一些遙控設(shè)備都不需要了,整個過程是非常輕便的。
學(xué)習(xí)成本更低
第三個語音交互的動機(jī)是學(xué)習(xí)成本更低,換句話說,比可視化交互更貼合用戶使用習(xí)慣。場景舉例:
小A剛開始學(xué)視頻軟件,但是總是記不住什么功能什么快捷鍵在什么位置?!霸趺床眉魣D片?”“先點(diǎn)擊上方菜單欄?!庇脩酎c(diǎn)擊后一步步引導(dǎo)?!霸趺葱薷念伾俊薄包c(diǎn)擊屏幕左邊第四個菜單欄….”
上述場景圖形交互與語音交互流程對比:
如上所示,圖形交互來回切換是比較冗余的,而且隨著步驟越多,冗余性越嚴(yán)重。所以,語音交互的這種動機(jī)主要出現(xiàn)在學(xué)習(xí)和引導(dǎo)型的應(yīng)用場景中,比如老年人協(xié)助、兒童學(xué)習(xí)、步行導(dǎo)航等等。語音交互的這個優(yōu)勢主要在易用性上體現(xiàn)出來。
易用性(智能理解、眼耳配合)
易用性體現(xiàn)的第一個方面是智能理解。當(dāng)用戶提出疑問,語音助手通過語義理解能夠智能地為用戶匹配教程,比起搜索,語音助手還可以更加智能地判斷用戶在操作時所處在的處境,比如用戶已經(jīng)選擇了裁剪工具,但是比起方形裁剪工具,更適合用圓形裁剪工具等等,智能語音可以結(jié)合上下文和其他信息更綜合地理解用戶的意圖。
易用性的第二個方面是眼耳配合??次恼轮笇?dǎo)教程時只用視覺獲取信息,學(xué)和做的過程不連貫,語音教程解放用戶雙眼,視覺專注于圖形化界面操作,聽覺接收指導(dǎo)信息,學(xué)習(xí)過程更加連貫。
其實(shí)聽覺接收文字信息的速度肯定是比不上視覺的,那為什么會更好呢?
因?yàn)檎Z音教程和圖形界面教程相比,用戶更加專注于眼前的操作,專注度更高,專注度才是學(xué)習(xí)效率提升的關(guān)鍵。也就是說,語音教程其實(shí)是幫助用戶創(chuàng)造了更加沉浸式的學(xué)習(xí)體驗(yàn)。
被動信息獲取成本更低
第四種使用語音交互的動機(jī)是被動信息成本更低,或者說,信息觸達(dá)用戶的方式更加高效。場景舉例:
重要提醒,在家里的時候,比如A想設(shè)置一個1小時后的重要提醒事項(xiàng),比起手機(jī)提醒,A選擇了用智能音箱提醒。因?yàn)橄啾萈ush提醒,語音提醒是一種更強(qiáng)的提醒。除了設(shè)置起來更簡便外,A怕錯過提醒信息,而喇叭般的音量確保A不會忘記這件事情。
上述場景中,圖形觸達(dá)和語音觸達(dá)流程:
相比圖形觸達(dá),語音交互把用戶主動獲取的這一環(huán)節(jié)省了,交互的成本更低。好比快遞打電話讓你到小區(qū)門口取和送到你家門口的區(qū)別。但是這種觸達(dá)方式對環(huán)境的私密性有一定要求,公共的場景中突然收到語音提醒并不太符合人的習(xí)慣。
總結(jié)
本文總結(jié)了四種常見的語音交互動機(jī):更快、更輕便、學(xué)習(xí)成本更低和觸達(dá)用戶更加高效。
- 更快動機(jī),主要適用于高頻、復(fù)雜的場景為主,其中多輪對話能力、聲紋識別能力和數(shù)據(jù)存儲設(shè)計可以把語音交互“更快”的優(yōu)勢發(fā)揮出來。
- 輕便性動機(jī),語音交互可以替代某些控制設(shè)備和存儲設(shè)備等。
- 學(xué)習(xí)成本更低動機(jī),主要通過發(fā)揮語音交互在學(xué)習(xí)型和引導(dǎo)型場景中的易用性。
- 觸達(dá)用戶高效動機(jī),通過降低人機(jī)交互的成本來體現(xiàn)優(yōu)勢。
以上是對語音交互的一點(diǎn)思考,總的來說,語音交互相比圖形交互的優(yōu)勢還是很明顯的。
本文由 @長青 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
家裝
學(xué)習(xí)了《