智能語(yǔ)音交互應(yīng)該如何設(shè)計(jì)?
編輯導(dǎo)語(yǔ):隨著亞馬遜、小米、阿里巴巴等大公司都推出了智能語(yǔ)音產(chǎn)品,智能語(yǔ)音交互設(shè)計(jì)成為了一個(gè)值得探索的領(lǐng)域。語(yǔ)音交互如何設(shè)計(jì)才能達(dá)到更自然的交互反饋、更好的傳達(dá)情感,這是目前需要解決的問(wèn)題。對(duì)于用戶(hù)來(lái)說(shuō),希望能與智能產(chǎn)品建立親切的信任感,越相處越好用。AI時(shí)代,深知我者,才能久居我心。
一、語(yǔ)音交互需求價(jià)值
說(shuō)到語(yǔ)音交互需求價(jià)值,總有一種不言而喻的感覺(jué),語(yǔ)言作為人類(lèi)信息傳遞的主要媒介,用其進(jìn)行溝通交流,是一種遵循本能的行為。從我們記憶機(jī)器命令的鍵盤(pán)輸入,到按機(jī)器提示的點(diǎn)擊觸碰行為,這類(lèi)需要我們?nèi)ダ斫鈾C(jī)器的方式,隨著科技的不斷突破,也迎來(lái)了轉(zhuǎn)變。
語(yǔ)音交互除了幾乎不需要任何學(xué)習(xí)成本外,更有意義的是,解放了作為輸入的雙手(是不有種人類(lèi)實(shí)現(xiàn)直立行走的偉大意義),人們可以同步開(kāi)展其它任務(wù),并且也調(diào)動(dòng)了人類(lèi)聽(tīng)覺(jué)的感官體驗(yàn),而不用完全局限在視覺(jué)上。
下面就來(lái)說(shuō)說(shuō)如何設(shè)計(jì)一款語(yǔ)音交互產(chǎn)品,先說(shuō)說(shuō)語(yǔ)音交互產(chǎn)品設(shè)計(jì)的整體流程框架,再對(duì)其中各環(huán)節(jié)涉及的問(wèn)題展開(kāi)說(shuō)明。
二、流程框架
查閱了亞馬遜Alexa語(yǔ)音界面設(shè)計(jì)規(guī)范和Google的語(yǔ)音界面設(shè)計(jì)規(guī)范后,結(jié)合自己的解分為五個(gè)關(guān)鍵步驟:調(diào)研→定位→設(shè)計(jì)→測(cè)試→完善。
調(diào)研—— 挖掘語(yǔ)音交互使用場(chǎng)景
定位—— 聚焦產(chǎn)品定位,創(chuàng)建用戶(hù)畫(huà)像
設(shè)計(jì)—— 設(shè)計(jì)狀態(tài)流程圖,編寫(xiě)腳本,建立原則
測(cè)試—— 真人感受,在線模擬測(cè)試
完善—— 數(shù)據(jù)+案例分析,優(yōu)化調(diào)整。
1. 調(diào)研:用戶(hù)場(chǎng)景的選擇
雖說(shuō)語(yǔ)音交互(VUI)帶來(lái)了便利,但并不是說(shuō)現(xiàn)有的交互方式都可以完全替換,想想畢竟文字的形式不也還存在嘛。其簡(jiǎn)單快捷的方式對(duì)需要復(fù)雜信息的呈現(xiàn),需要時(shí)間思考反饋的產(chǎn)品反而會(huì)增加復(fù)雜度。
Google給出了3條指導(dǎo)原則:
- 人們可以快速做出回答的場(chǎng)景。比如用戶(hù)輸入不需要思考的基本信息;
- 快捷,可以省去中間交互的時(shí)間,強(qiáng)執(zhí)行操作比如給XX打電話(搜索框輸入XX,點(diǎn)擊查詢(xún),撥打的步驟合并一步提交后臺(tái)處理);
- 雙手已被占用,需要并行處理其它任務(wù)場(chǎng)合。比如開(kāi)車(chē)的時(shí)候,做飯的時(shí)候,記筆記的時(shí)候,這些場(chǎng)合雙手多數(shù)是被占用的。
2. 定位:創(chuàng)建人物畫(huà)像
語(yǔ)音交互是在模擬人的行為,建立的虛擬人的形象,也會(huì)讓人們將現(xiàn)實(shí)中人的行為與其關(guān)聯(lián)。字正腔圓的新聞聯(lián)播是嚴(yán)謹(jǐn)真實(shí)的,少兒節(jié)目是活潑可愛(ài)的,相聲綜藝是輕松詼諧的。
在設(shè)計(jì)對(duì)話前,定位出產(chǎn)品態(tài)度,才好選擇詞語(yǔ)風(fēng)格,句子結(jié)構(gòu)。
3. 設(shè)計(jì)交互對(duì)話
設(shè)計(jì)分為三個(gè)步驟:邏輯狀態(tài)圖——對(duì)話腳本編寫(xiě)——解決方案分級(jí)
1)圍繞用戶(hù)產(chǎn)生的結(jié)果狀態(tài),梳理出邏輯圖
機(jī)器與人的對(duì)話存在多種可能性,除了完成核心場(chǎng)景外,還要考慮意外的情況。用戶(hù)輸入 不在范圍內(nèi),用戶(hù)不按提示操作,用戶(hù)重復(fù)輸入多次,用戶(hù)沒(méi)有回應(yīng)等等。
但是這些都不算用戶(hù)輸入錯(cuò)誤,這個(gè)概念是不存在的,都是一種狀態(tài),需要引導(dǎo)到正常會(huì)話下圖是未展開(kāi)細(xì)節(jié)的狀態(tài)流程圖示例。
喚醒——響應(yīng)——輸入——理解——輸出
(橘色是人的輸入,綠色是機(jī)器輸出,無(wú)色是處理邏輯):
2)對(duì)每個(gè)狀態(tài)編寫(xiě)對(duì)話體驗(yàn)?zāi)_本
3)結(jié)合情感化設(shè)計(jì)的解決方案分級(jí)
從用戶(hù)體驗(yàn)劃分為三個(gè)層級(jí),滿足人們功能、心理、自我探索共鳴需求。
- 功能級(jí):期望對(duì)話的產(chǎn)品更像一個(gè)自然人亞馬遜Alexa設(shè)計(jì)規(guī)范指出人類(lèi)對(duì)話的核心特點(diǎn):串聯(lián),有上下文的相關(guān)性輪流,你說(shuō)一句我說(shuō)一句的互動(dòng)潛在效率;省略詞,簡(jiǎn)潔高效的本能多樣性:一句話可以有多種表達(dá)形式。
- 心理級(jí):激發(fā)未知好奇心人類(lèi)天生有好奇心,喜歡新事物,計(jì)算能力強(qiáng)是機(jī)器的優(yōu)勢(shì),如果每次對(duì)話,同樣的問(wèn)題會(huì)有不同的回答,用戶(hù)會(huì)主動(dòng)想去體驗(yàn)互動(dòng)。
- 自我探索級(jí):觸發(fā)情感共情人是有感情的生物,一本記滿日記的本子,陪你走南闖北的行李箱,何況是一只會(huì)說(shuō)話的產(chǎn)品。并且經(jīng)過(guò)時(shí)間的磨合,她越來(lái)越懂你,記得上次你查詢(xún)的內(nèi)容,記得你上次問(wèn)的問(wèn)題。會(huì)喚起你小伙伴在身旁的感覺(jué)。
4. 測(cè)試
1)大聲的朗讀出來(lái),聽(tīng)起來(lái)是口語(yǔ),而不是書(shū)面語(yǔ)言;
2)谷歌在線模擬器 ?https://developers.google.com/assistant/console/simulator。
5. 迭代完善
1) 結(jié)合用戶(hù)反饋,數(shù)據(jù)統(tǒng)計(jì)進(jìn)行分析
比如:對(duì)于用戶(hù)同一個(gè)問(wèn)題提出多次原因可能是:
- 答案不是用戶(hù)想要的;
- 用戶(hù)忘記了第一次答案;
- 用戶(hù)頑皮這時(shí)候可以結(jié)合人工理解,大多數(shù)用戶(hù)選擇進(jìn)行優(yōu)化。
2)示例中等待時(shí)間5秒按Cathy Pearl書(shū)中試驗(yàn)得出,這個(gè)值可以根據(jù)不同產(chǎn)品用戶(hù)的反應(yīng)速度調(diào)整。
三、設(shè)計(jì)中考慮的因素
從用戶(hù),產(chǎn)品,信息內(nèi)容,傳達(dá)方式中的問(wèn)題與語(yǔ)言特征依次說(shuō)起。
1)用戶(hù)意圖的識(shí)別
人們問(wèn)的問(wèn)題,因?yàn)閭€(gè)體差異,關(guān)注的點(diǎn)不同,需要的結(jié)果也會(huì)不一樣。
比如:今天出門(mén)需要帶傘么?
——男性:關(guān)注下雨;
——女性:關(guān)注日曬。
區(qū)別個(gè)體差異,讓用戶(hù)覺(jué)得你懂他,體驗(yàn)到產(chǎn)品的溫度。
2)產(chǎn)品人格塑造
我們?cè)谂c他人交流的時(shí)候,會(huì)注意場(chǎng)合,自我形象,用連接詞進(jìn)行話語(yǔ)的過(guò)渡。語(yǔ)音交互,作為一個(gè)擬人化產(chǎn)品,這些也是要考慮的。
- 自我形象:面向小朋友的教育軟件,要樹(shù)立一個(gè)勇敢權(quán)威的形象,而他們本身就是可愛(ài)的,就不應(yīng)該再加入賣(mài)萌的話術(shù)。而客服類(lèi)語(yǔ)音,由于客戶(hù)面對(duì)問(wèn)題會(huì)存在不耐心煩躁的情緒,就可以用幽默的話術(shù)緩解一下氣氛。
- 注意場(chǎng)景:在公共場(chǎng)合,話語(yǔ)要簡(jiǎn)潔,高效解決問(wèn)題。在私人空間,比如家,可以網(wǎng)絡(luò)語(yǔ)化、逗逗樂(lè)。
- 過(guò)渡詞:人們談話的時(shí)候,不會(huì)拘泥于一個(gè)話題,會(huì)不斷展開(kāi)話題,比如:對(duì)了、其實(shí)、但是…
3)控制內(nèi)容范圍
語(yǔ)音交互實(shí)質(zhì)是連接產(chǎn)品服務(wù)與用戶(hù)需求,所以答案要么和產(chǎn)品有關(guān),要么和產(chǎn)品無(wú)關(guān)。有關(guān)的是基于產(chǎn)品本身的有限搜索信息庫(kù)。無(wú)關(guān)的用兜底的話術(shù)結(jié)束(這個(gè)功能我還在努力學(xué)習(xí))還有一種是引導(dǎo)用戶(hù),結(jié)合著視覺(jué),羅列出和主題相關(guān)的選項(xiàng),引導(dǎo)用戶(hù)找到答案。
4)信息口語(yǔ)式傳達(dá)
口語(yǔ)在表達(dá)的時(shí)候,為了簡(jiǎn)潔方便,并沒(méi)有按著嚴(yán)格語(yǔ)法(主謂賓,定語(yǔ)*+名詞的結(jié)構(gòu)),省略的、不連續(xù)會(huì)被大腦自然補(bǔ)齊,比如:
CASE1:
點(diǎn)餐,來(lái)一杯拿鐵,大杯加冰,而書(shū)面表達(dá)可能說(shuō),他點(diǎn)了一大杯加冰的拿鐵;
CASE2:
詢(xún)問(wèn)天氣:今天天氣怎么樣?(隱含用戶(hù)現(xiàn)在所在的城市)。
繼續(xù)詢(xún)問(wèn),那杭州呢?(隱含還是問(wèn)的天氣)
書(shū)面表達(dá)是事后信息重整理,口語(yǔ)表達(dá)是大腦同步傳遞,先表達(dá)中心,然后補(bǔ)充細(xì)節(jié)。用戶(hù)信息輸入后,留出一段停頓的時(shí)間,再執(zhí)行命令,會(huì)更符合說(shuō)話的節(jié)奏。
四 技術(shù)及其現(xiàn)狀
語(yǔ)音交互的信息流處理步驟如下:
1)語(yǔ)音識(shí)別 ASR :聽(tīng)清用戶(hù)說(shuō)話
處于單模式狀態(tài):?jiǎn)拘褜?duì)話,再喚醒再對(duì)話的方式,反映到現(xiàn)實(shí)是這樣場(chǎng)景:
小明,播放周杰論的告別氣球。
小明,聲音大些。
小明,再大些。
小明,循環(huán)播放。
小明,播放Remix版。
你每次說(shuō)話都要帶上別人的名字。目前大部分產(chǎn)品是單輪對(duì)話,采用一問(wèn)一答交替形式,對(duì)用戶(hù)糾正信息,打斷對(duì)話是不做響應(yīng)處理的,期待技術(shù)發(fā)展后續(xù)可以是邊聽(tīng)邊思考的信息流狀態(tài)。
2)語(yǔ)義理解NLU :聽(tīng)懂用戶(hù)的話
語(yǔ)義理解要做到智能除了字面含義外,用戶(hù)意圖識(shí)別,情緒識(shí)別,對(duì)話的上下文信息關(guān)聯(lián)都是要考慮的因素。
3)信息搜索Info Search :最強(qiáng)大腦
依賴(lài)于檢索的準(zhǔn)確率,召回率。
4)語(yǔ)言生成NLG:生成結(jié)果
分為三個(gè)級(jí)別:
- 簡(jiǎn)單數(shù)據(jù)合成并;
- 模版化輸出,比如:導(dǎo)航的語(yǔ)音播報(bào);
- 高級(jí)版模擬人類(lèi)表達(dá),它理解用戶(hù)意圖,結(jié)合知識(shí)圖譜,比用戶(hù)多想一步等,解決其本質(zhì)需求。說(shuō)兩個(gè)例子,暢想一下:
CASE1:
用戶(hù):小明,杭州氣溫多少度?
語(yǔ)音:杭州今天氣溫10~14度,未來(lái)3天有小雨,主人出門(mén)建議多帶件換洗衣物(用戶(hù)之前通過(guò)語(yǔ)音查詢(xún)了機(jī)票酒店信息,或者上次主人問(wèn)了這個(gè)問(wèn)題后,有5天都沒(méi)有再用設(shè)備,因?yàn)椴辉诩遥?/p>
CASE2:
用戶(hù):小明,來(lái)首歌吧!
語(yǔ)音:(識(shí)別出語(yǔ)調(diào)興奮)好,播放了一首歡快的high歌。
用戶(hù):小明,放首歌!
語(yǔ)音:(識(shí)別出語(yǔ)音的低落)好,播放了一首正能量的歌。
這一部分的可關(guān)聯(lián)的空間還很大。說(shuō)個(gè)題外話,語(yǔ)音是人類(lèi)所擅長(zhǎng)的,對(duì)其的預(yù)期會(huì)高,有時(shí)說(shuō)話像個(gè)孩子的樣子,有時(shí)反而還會(huì)討喜。所以還要結(jié)合心理預(yù)期維度的研究。
5)TTS :播放給用戶(hù)聽(tīng)
目前可以選擇喜歡的明星的聲音,以及AI主持人。
總結(jié)
無(wú)論從市場(chǎng)應(yīng)用的硬件載體覆蓋面(智能音箱、智能手表、智能導(dǎo)航儀等),行業(yè)應(yīng)用廣泛推廣(醫(yī)療,教育,公檢法,車(chē)聯(lián)網(wǎng),泛娛樂(lè)等),還是聚焦在產(chǎn)品設(shè)計(jì),技術(shù)優(yōu)化上,以及符合人體本能行為需求價(jià)值上,還是作為AI時(shí)代的入口,這個(gè)方向都是很有趣的,歡迎開(kāi)撩~~
本文由 @大魚(yú)海棠 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
寫(xiě)得不錯(cuò)~