語音交互設(shè)計(jì)(二):設(shè)計(jì)流程與方法
本文結(jié)合筆者參與的語音交互項(xiàng)目,梳理設(shè)計(jì)經(jīng)過,對(duì)語音交互的設(shè)計(jì)流程、設(shè)計(jì)方法和設(shè)計(jì)產(chǎn)出做了較為詳細(xì)的介紹。
“語音交互設(shè)計(jì)僅靠書本上的知識(shí)是不夠的,在實(shí)際項(xiàng)目中,除了要了解需求、目標(biāo)用戶以外,還要了解語音設(shè)計(jì)所應(yīng)用的場(chǎng)景、技術(shù)水平、設(shè)備配置等,從而有的放矢的展開設(shè)計(jì)。本文結(jié)合參與的項(xiàng)目,將語音交互設(shè)計(jì)的流程、設(shè)計(jì)關(guān)鍵點(diǎn)以及如何通過設(shè)計(jì)化解技術(shù)限制,和大家進(jìn)行分享?!?/p>
日常設(shè)計(jì)工作中,大家都會(huì)按照一定的設(shè)計(jì)流程開展工作,通用的流程一般有:探索調(diào)研 > 分析聚焦 > 設(shè)計(jì)策略 > 測(cè)試驗(yàn)證。同樣,這個(gè)流程可以復(fù)用到語音交互設(shè)計(jì)中,只是設(shè)計(jì)對(duì)象的媒介和我們產(chǎn)出的設(shè)計(jì)原型發(fā)生了改變,但我們發(fā)現(xiàn)問題、解決問題的思路應(yīng)該是類似且可復(fù)用的,尤其是在新的設(shè)計(jì)領(lǐng)域中,不妨借鑒成熟的方法、流程,確保工作順利開展。具體的設(shè)計(jì)流程與環(huán)節(jié)如下圖:
圖1 · 語音交互設(shè)計(jì)流程
1. 探索調(diào)研
1.1 明確需求
筆者所參與的項(xiàng)目是“公司機(jī)房服務(wù)的工業(yè)機(jī)器人” 的語音設(shè)計(jì),這類產(chǎn)品的功能比家用設(shè)備的更為強(qiáng)大,除了語音外,它支持:行走、人臉識(shí)別、任務(wù)解析、數(shù)據(jù)采集等,同時(shí)場(chǎng)景也更為復(fù)雜。首先機(jī)房環(huán)境聲音嘈雜、環(huán)境復(fù)雜;它的性質(zhì)又決定對(duì)人員的安全要求極高,需要準(zhǔn)確的識(shí)別與判斷,這些在了解需求階段是必須明確的環(huán)節(jié)。
機(jī)器人的主要功能就是輔助參觀人員、維修人員、駐場(chǎng)工程師更好的完成機(jī)房工作,實(shí)現(xiàn)機(jī)房業(yè)務(wù)管理智能化,提高運(yùn)維管理效率和準(zhǔn)確率。那么作為體驗(yàn)設(shè)計(jì)方,則是通過各場(chǎng)景、各環(huán)節(jié)的體驗(yàn)設(shè)計(jì),讓人與機(jī)器人、與系統(tǒng)的交互高效、自然、流暢,讓智能化的機(jī)房日常運(yùn)維管理更加完善。
1.2?了解業(yè)務(wù)場(chǎng)景及目標(biāo)用戶
在上一篇文章中對(duì)主要的五種場(chǎng)景(智能家居、車載駕駛、企業(yè)應(yīng)用、醫(yī)療、教育)分別進(jìn)行了介紹。不同的場(chǎng)景,意味著用戶不同的需求和目的,對(duì)語音交互的要求也不相同。下面就針對(duì)機(jī)房環(huán)境進(jìn)行場(chǎng)景分析與設(shè)計(jì)難點(diǎn)的介紹。
圖2 · 機(jī)器人功能及場(chǎng)景特征
1.2.1?工作場(chǎng)景
恒定噪音:作為機(jī)房服務(wù)場(chǎng)景的語音機(jī)器人,使用環(huán)境聲音的嘈雜首先會(huì)影響語音錄入的準(zhǔn)確性。語音交互包含三個(gè)重要部分:自然語音識(shí)別、自然語音理解、自然語音生成,? 因此解決設(shè)備“聽”清楚的問題,關(guān)系到后續(xù)流程能否順利展開。這里就需要依靠“設(shè)備技術(shù)”來解決,通過優(yōu)化聽筒的降噪能力,盡量過濾掉噪音。
環(huán)境復(fù)雜:機(jī)房中機(jī)柜眾多,服務(wù)器高低不一、設(shè)備管線錯(cuò)綜復(fù)雜,如圖3:這給機(jī)器人的正常作業(yè)帶來挑戰(zhàn),尤其是這種對(duì)安全性和準(zhǔn)確性要求很高的場(chǎng)景。首先,機(jī)房包間中的環(huán)境光線影響機(jī)器人對(duì)人臉的識(shí)別和機(jī)柜數(shù)據(jù)的讀取;其次,機(jī)柜中服務(wù)器位置高低不同,機(jī)器人需要不斷調(diào)整攝像頭的角度,以確保采集到完整信息,也可能存在視野死角導(dǎo)致無法全部讀取。這一部分,則需要通過不斷的測(cè)試與調(diào)整,提高機(jī)器人自身性能,使其更好的適應(yīng)現(xiàn)場(chǎng)環(huán)境,具有設(shè)備、網(wǎng)絡(luò)線纜的識(shí)別能力,減少不必要的“人為”破壞,增加人臉、數(shù)據(jù)識(shí)別的準(zhǔn)確性。
圖3 · 一般的機(jī)房環(huán)境
空間局促:在機(jī)房中機(jī)柜之間的空間不大,過道也比較狹窄,這給機(jī)器人行走帶來一定影響。第一:行走速度不能過快,由于機(jī)器人自重150斤,走路太快會(huì)有慣性,有可能出現(xiàn)不小心撞到機(jī)柜的情況;第二:很多時(shí)候無法和人并行走路,這導(dǎo)致人機(jī)互動(dòng)體驗(yàn)不好,再加上機(jī)器人本身走的慢,很有可能出現(xiàn)“人走在前面,遮擋住機(jī)器人視線”的問題。為此,在設(shè)計(jì)語音時(shí),只要機(jī)器人感應(yīng)到有遮擋,便會(huì)播報(bào):“我好像被擋住了,請(qǐng)保持前方通暢”,以此來友善的提醒用戶,減少這種封閉環(huán)境下用戶的不適應(yīng)。
1.2.2 目標(biāo)用戶
通過團(tuán)隊(duì)的調(diào)研,收集到在整個(gè)數(shù)據(jù)中心有5類用戶,其中會(huì)進(jìn)入機(jī)房與機(jī)器人直接發(fā)生交互的主要有三類:訪客、廠商、數(shù)據(jù)中心駐場(chǎng),如圖4。圖中是這三類用戶的工作內(nèi)容與場(chǎng)景接觸點(diǎn),確認(rèn)目標(biāo)用戶,便于設(shè)計(jì)對(duì)后續(xù)用戶調(diào)研的聚焦與體驗(yàn)地圖的梳理。
圖4 · 用戶分析
1.3 技術(shù)水平
1.3.1?硬件
硬件來說,目前的語音產(chǎn)品包括:純語音(天貓精靈)和語音及界面結(jié)合(iphone的siri)兩種配置。在設(shè)計(jì)之初,我們需要了解語音產(chǎn)品的基本硬件配置,這其中也包括麥克風(fēng)、攝像頭、聽筒、設(shè)備聯(lián)網(wǎng)程度等,因?yàn)?,產(chǎn)品的配置會(huì)影響我們后期的設(shè)計(jì)策略與體驗(yàn)。例如問語音產(chǎn)品:“世界十大旅游勝地都是哪些?、中國(guó)56個(gè)名族都有什么?”,即便語音助手可以準(zhǔn)確的告訴我們答案,但無疑是一個(gè)沉重的認(rèn)知與記憶負(fù)擔(dān),如果配合屏幕來顯示,情況會(huì)好很多。最好的人機(jī)交互形式是混合型的,即GUI+VUI(圖像交互+語音交互)如圖echo show,如果你所設(shè)計(jì)的是純語音產(chǎn)品,那么在設(shè)計(jì)時(shí)則需要考慮更多的引導(dǎo)、容錯(cuò)、提示等。
圖5 · 亞馬遜Echo Show
本次項(xiàng)目中所涉及的機(jī)器人不帶顯示屏幕,并且語音不聯(lián)網(wǎng),這就意味著所有對(duì)話都需要提前預(yù)設(shè)好,設(shè)計(jì)師需要根據(jù)可能出現(xiàn)的情況,將對(duì)話內(nèi)容完善,并且做必要引導(dǎo),讓用戶按照系統(tǒng)期望的流程進(jìn)行,確保工作順利、安全的開展。如下圖:
在設(shè)計(jì)時(shí),對(duì)于較長(zhǎng)對(duì)話,在內(nèi)容中加入“如果沒聽清楚,請(qǐng)回復(fù)我‘重復(fù)一遍’〞的提示,避免用戶沒有聽清而錯(cuò)過信息;同時(shí)對(duì)于用戶的回答,也給予答案提示,“維修結(jié)束時(shí)請(qǐng)回復(fù)我‘維修結(jié)束’ 〞通過設(shè)計(jì)去盡量規(guī)避機(jī)器人硬件的缺陷,減少“答非所問”的錯(cuò)誤發(fā)生率和用戶回答的發(fā)散,提高語音交互流程的順暢。
圖6 ·?語音交互引導(dǎo)示例
1.3.2?算法
算法方面,則需要通過機(jī)器“深度學(xué)習(xí)”,不斷完善語音識(shí)別、語音理解及語音合成的水平。目前,語音識(shí)別方面還面臨很多技術(shù)挑戰(zhàn),如:
(1)?噪音
恒定噪音(公路上、機(jī)房中)?和突發(fā)噪音(突然異常大聲)。
(2)多人講話:
多人講話,設(shè)備能否識(shí)別其中一條信息;同樣多設(shè)備時(shí),如何辨別自己的主人在說話。
(3)兒童:
兒童說話邏輯性較弱,容易出現(xiàn)口吃、長(zhǎng)時(shí)間停頓等現(xiàn)象。
(4)短句:
“是”、“不”這種短句提供的數(shù)據(jù)信息較少,會(huì)造成識(shí)別率低。
(5)多音字:
比如人名,同樣的音會(huì)有多種書寫文字“清”“輕”,會(huì)影響語音識(shí)別的準(zhǔn)確性。
更多關(guān)于機(jī)器人“深度學(xué)習(xí)”的內(nèi)容大家可以自行了解,這里不展開討論。
2. 分析聚焦
具體在分析聚焦階段,設(shè)計(jì)的思路是:用戶調(diào)研?>?聚類分析?>?角色建模?>?體驗(yàn)設(shè)計(jì)。圍繞與機(jī)器人相關(guān)的機(jī)房工作人員,提升他們?cè)诠ぷ髦械姆?wù)體驗(yàn),確保順暢、安全、高效的工作流程。
圖7 ·?用戶分析
2.1 用戶畫像
針對(duì)第一章節(jié)中定位的三類用戶,我們通過問卷,進(jìn)?用戶訪談,旨在了解各個(gè)不同角?的用戶他們工作的內(nèi)容、需求,以及有哪些痛點(diǎn)可以抽取出來由機(jī)器人替代,從而優(yōu)化各角色的服務(wù)體驗(yàn)。
圖8 ·?用戶問卷設(shè)計(jì)
共計(jì)訪問10位用戶,包含各個(gè)角色。訪問之后,我們對(duì)用戶訪談的結(jié)果進(jìn)行整理,整理維度有:日常工作描述、工作中的需求與期望、對(duì)機(jī)器人工作融入的暢想與擔(dān)心。在此基礎(chǔ)上,完成用戶角色建模,通過各類角色的工作內(nèi)容、痛點(diǎn)、情景設(shè)定、工作評(píng)分這四個(gè)主要方向進(jìn)行描述與呈現(xiàn),以駐場(chǎng)工程師為例,具體的用戶角色卡如下圖所示:
圖9 ·?用戶角色信息卡–駐場(chǎng)
最終根據(jù)用戶畫像和調(diào)研中收集的問題進(jìn)行聚類分析,集中梳理與歸類,得到用戶訴求,即對(duì)機(jī)器人應(yīng)用場(chǎng)景下的機(jī)房服務(wù)的“服務(wù)主張”,圍繞“安全”“規(guī)范”“高效”三個(gè)方面。這三個(gè)機(jī)房服務(wù)的體驗(yàn)?zāi)繕?biāo),也是作為后續(xù)機(jī)器人語音設(shè)計(jì)所要達(dá)到的基本要求。
圖10 · 機(jī)房服務(wù)主張
2.2 體驗(yàn)地圖
與機(jī)器人交互的環(huán)節(jié)涉及到線上、線下,從線上任務(wù)的提交到線下與機(jī)器人真實(shí)交互,再到過程中機(jī)器人收集信息的回傳,整個(gè)閉環(huán)鏈路構(gòu)成機(jī)房機(jī)器人服務(wù)體驗(yàn)的核心。以其中導(dǎo)覽場(chǎng)景為例,介紹整體流程,線上的主要觸點(diǎn):任務(wù)申請(qǐng)?>?任務(wù)生成?>?任務(wù)確認(rèn)?>?任務(wù)存檔;線下的主要觸點(diǎn):任務(wù)下發(fā)?>?機(jī)器人喚醒及用戶身份驗(yàn)證?>?任務(wù)執(zhí)行?>?任務(wù)結(jié)束,具體的觸點(diǎn)詳情及語音流程見下圖:
圖11 · 機(jī)器人服務(wù)體驗(yàn)流程
經(jīng)過體驗(yàn)地圖的梳理與流程規(guī)劃,去構(gòu)建合理、有序的流程,在任務(wù)執(zhí)行過程中保證人機(jī)交互“自然、親切、可靠”的體驗(yàn),同時(shí)配合技術(shù)優(yōu)化,完善機(jī)器人語音交互的豐富度,在語音交互設(shè)計(jì)中也會(huì)利用適當(dāng)?shù)囊龑?dǎo)與必要的提示,以更自然的方式消除異常時(shí)的尷尬,快速做到工作銜接。
3. 設(shè)計(jì)策略
3.1 定義角色人格
VUI產(chǎn)品是一個(gè)虛擬的人與用戶直接溝通,因此,溝通對(duì)象的語氣風(fēng)格、性格等則是用戶接觸的第一感受,為了提升真實(shí)性,定義一個(gè)符合自己產(chǎn)品調(diào)性的角色至關(guān)重要,也是著手真正語音設(shè)計(jì)的第一步。
這里的角色,是通過應(yīng)用程序的語音及語言選擇,塑造一個(gè)符合品牌服務(wù)特征,并且具有人格或心理的形象【1】。角色人格包含:
- 公司所傳達(dá)的態(tài)度
- 產(chǎn)品的個(gè)性特征
- 期望別人如何看待它
在本次項(xiàng)目中,筆者在開始設(shè)計(jì)時(shí),也先對(duì)機(jī)器人的語音調(diào)性和語氣風(fēng)格做了定義,根據(jù)語音交互場(chǎng)景和機(jī)器人的功能特性,語氣規(guī)范追求的是:篤定、尊重、正式、親切的感受,既讓用戶感受到機(jī)器人工作的嚴(yán)謹(jǐn)性與安全性,又讓整個(gè)服務(wù)體驗(yàn)兼具友善、和諧與溫度。
圖12 · 機(jī)器人語音調(diào)性與語氣規(guī)范
以“篤定”為例,表達(dá)語氣的說明和示例,通過語氣規(guī)范,統(tǒng)一整個(gè)語音交互原型的調(diào)性。
圖13 · 語氣規(guī)范示例
在設(shè)計(jì)時(shí),我們可以用“真實(shí)的人物”來定義聲音特征與溝通基調(diào),分析、了解真實(shí)人物模型的個(gè)性特征。例如兒童早教類語音產(chǎn)品,可以以大家熟知的“金龜子”為人格原型進(jìn)行定義,溝通中模仿她的語氣、用詞,讓兒童感到親切并符合服務(wù)對(duì)象的特征喜好。同時(shí),我們需要設(shè)定“期望人們?nèi)绾慰创覀兊恼Z音產(chǎn)品”,傳達(dá)怎樣的服務(wù)理念。
圖14 · 人物模型
但這里值得注意的是,現(xiàn)在很多語音助手支持語音選擇,如男聲、女聲、少年等。我們要知道,“改變聲音的同時(shí),就意味著換了不同的人格”,他們的語音交互特征、形式等應(yīng)該發(fā)生相應(yīng)變化。同樣一句很可愛、很活潑的話,小孩說合適,但如果換到“成熟男士”,多少會(huì)有些不合時(shí)宜。
圖15 · 人物語氣的多種性格
3.2?語音交互設(shè)計(jì)
語音設(shè)計(jì)的原型更像是“劇本設(shè)計(jì)”,需要考慮在哪個(gè)場(chǎng)景下,包含什么角色、他們?nèi)绾螌?duì)話、如何過度銜接、具體的語言如何等,如下圖就是在此次項(xiàng)目中輸出的語音設(shè)計(jì)原型,具體內(nèi)容涉及到信息隱私,這里就不展開了,但是整個(gè)語音交互腳本中,對(duì)場(chǎng)景、角色、對(duì)話腳本備注圖例、腳本正文等都做了明確定義與設(shè)計(jì),后面就圍繞如何做好交互引導(dǎo)、反饋、異常處理這四個(gè)方面進(jìn)行介紹。
圖16 · 語音交互腳本原型
3.2.1 語音交互引導(dǎo)
在設(shè)計(jì)語音腳本內(nèi)容時(shí),需要特別考慮VUI與人對(duì)話過程的語言銜接、對(duì)話內(nèi)容的順暢,并且能夠自然的完成設(shè)想的任務(wù)。例如當(dāng)詢問用戶信息時(shí),最好給出一些示例,而不是說明。以下兩句話大家可以明顯感受到體驗(yàn)的差異,對(duì)于用戶來說,參照示例填寫信息,比理解一個(gè)通用指令更加容易。
- “請(qǐng)告訴我你的出生日期,如2017年12月12日”
- “請(qǐng)告訴我你的出生日期,包括年月日”
3.2.2?語音交互反饋
在GUI界面中,“確認(rèn)反饋”隨處可見,點(diǎn)擊一個(gè)按鈕、進(jìn)行一個(gè)編輯操作,我們會(huì)設(shè)計(jì)不同重要程度的交互反饋;在VUI中,同樣有不同程度的“確認(rèn)反饋”,本文主要將他們分為三種:顯性確認(rèn)、隱形確認(rèn)、視覺確認(rèn)。
圖17 · 語音交互反饋
3.2.3?語音交互異常處理
語音可能存在的異常情況主要有以下四種:
- 未檢測(cè)到語音 (明確告訴用戶“我沒聽清”)
- 檢測(cè)到語音,但沒有識(shí)別(“我不明白你的意思”)
- 語音被正確識(shí)別,但系統(tǒng)無法處理(“出現(xiàn)異?!保?/li>
- 部分語音識(shí)別錯(cuò)誤(答非所問)
在設(shè)計(jì)中,我們可以按照不同的異常情況,設(shè)計(jì)多種播報(bào)腳本,提高產(chǎn)品容錯(cuò)性,緩解異常時(shí)候的尷尬,在此例舉些常見的用戶語音輸入錯(cuò)誤的回答,如圖18。
圖18 · 用戶輸入錯(cuò)誤時(shí)的回答
4. 測(cè)試驗(yàn)證
4.1 語音設(shè)計(jì)原型測(cè)試
以項(xiàng)目中團(tuán)隊(duì)采用的兩種腳本測(cè)試方式為例,分別是:劇本朗讀和語音轉(zhuǎn)換工具。通過劇本朗讀,體驗(yàn)對(duì)話的流暢程度,確認(rèn)是否存在對(duì)話呆板、重復(fù)、不自然的情況;通過文字轉(zhuǎn)語音工具,如QQ語音轉(zhuǎn)化,可以較真實(shí)的感受機(jī)器將對(duì)話說出來的效果。
圖19 · 語音設(shè)計(jì)原型測(cè)試
4.2 語音及設(shè)備測(cè)試調(diào)優(yōu)
設(shè)計(jì)交付后,功能開發(fā)完成,進(jìn)入語音設(shè)備可運(yùn)行階段,這時(shí)系統(tǒng)具備測(cè)試功能。測(cè)試調(diào)優(yōu)的方法同樣給大家列舉兩個(gè):一是可以通過開發(fā)、設(shè)計(jì)人員,進(jìn)行實(shí)際人機(jī)測(cè)試,了解語音功能是否穩(wěn)定、任務(wù)完成率如何、整個(gè)體驗(yàn)流程是否自然順暢;二是可以通過用戶觀察的方法進(jìn)行調(diào)研,找到符合特征的目標(biāo)測(cè)試用戶,利用機(jī)房的監(jiān)控?cái)z像頭,觀察“自然狀態(tài)下”的用戶如何工作,這樣不會(huì)干擾用戶,更貼近真實(shí)的使用情景。
圖20 · 人機(jī)使用測(cè)試
5. 總結(jié)
以上是筆者首次接觸語音交互設(shè)計(jì)的設(shè)計(jì)經(jīng)過,對(duì)VUI設(shè)計(jì)中的知識(shí)點(diǎn)、流程、方法進(jìn)行的總結(jié),仍有很多不全面之處,后續(xù)隨著項(xiàng)目的迭代和設(shè)計(jì)的深入,逐步去完善體驗(yàn),總結(jié)沉淀。
【1】參考書籍:《語音用戶界面設(shè)計(jì)》 Cathy Pearl (著)王一行(譯)
相關(guān)閱讀
語音交互設(shè)計(jì)(一):VUI發(fā)展及特征
作者:晏菲(史慧婷),阿里巴巴交互設(shè)計(jì)師
來源:微信公眾號(hào)“TXD技術(shù)體驗(yàn)設(shè)計(jì)(ID:TXD-UED)”
本文由 @TXD技術(shù)體驗(yàn)設(shè)計(jì) 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來源于網(wǎng)絡(luò)
我在關(guān)注ai,來占個(gè)沙發(fā)