語(yǔ)音交互設(shè)計(jì)的流程及方法

8 評(píng)論 31041 瀏覽 169 收藏 20 分鐘

本文結(jié)合參與的項(xiàng)目,將語(yǔ)音交互設(shè)計(jì)的發(fā)展、特征、流程、設(shè)計(jì)方法和大家進(jìn)行分享。

隨著移動(dòng)智能終端和云計(jì)算的快速發(fā)展,人工智能的浪潮正在悄然顛覆著我們生活的點(diǎn)點(diǎn)滴滴,VUI(Voice User Interface,語(yǔ)音用戶界面)作為一個(gè)新的領(lǐng)域也在快速發(fā)展,并對(duì)用戶體驗(yàn)提出了更多關(guān)于語(yǔ)言學(xué)、情感塑造、邏輯搭建等方面的新要求。

本文結(jié)合參與的項(xiàng)目,將語(yǔ)音交互設(shè)計(jì)的發(fā)展、特征、流程、設(shè)計(jì)方法和大家進(jìn)行分享。

一、VUI的發(fā)展

那么首先來(lái)說(shuō)一下,在原有 GUI(Graphical User Interface,圖形用戶界面)如此豐富的情況下,為什么要新增加一種交互方式呢?

它們兩者之間最大的差異就是:輸入方式不同。

最顯著特性就是「解放了雙手」,在獲取我們關(guān)注的信息時(shí),可以用最自然的語(yǔ)言進(jìn)行溝通,眼睛和手可以同時(shí)處理其他的事情。

1. VUI的第一個(gè)時(shí)期

20世紀(jì)90年代,誕生了第一個(gè)可行的、非特定的(每個(gè)人都可以對(duì)他說(shuō)話)的語(yǔ)音識(shí)別系統(tǒng),交互式語(yǔ)音應(yīng)答(Interactive Voice Response,IVR)系統(tǒng)的出現(xiàn)代表了 VUI 的第一個(gè)重要時(shí)期。

人通過電話線路進(jìn)行交互并執(zhí)行任務(wù),如機(jī)票預(yù)訂、銀行轉(zhuǎn)帳、業(yè)務(wù)查詢等。相信大家都用12306電話訂票訂過火車票,我們通過輸入數(shù)字命令,與系統(tǒng)進(jìn)行語(yǔ)音交互。

它的主要特點(diǎn)如下:

  • 優(yōu)點(diǎn):擅長(zhǎng)識(shí)別和播報(bào)長(zhǎng)字符。
  • 缺點(diǎn):用戶很少有機(jī)會(huì)暫停系統(tǒng),系統(tǒng)占主動(dòng)地位。

回想一下那個(gè)過程,我們必須不斷地與系統(tǒng)進(jìn)行交互,如果中間出現(xiàn)錯(cuò)誤,只能掛斷重來(lái),因此整個(gè)交互過程會(huì)容易讓用戶處在謹(jǐn)慎、局促的狀態(tài)下。

2. VUI的第二個(gè)時(shí)期

我們現(xiàn)在所處第二時(shí)期的初期,目前很多像 siri、Google 這類集成了視覺和語(yǔ)音信息的 APP,以及 Amazon Echo 這類純語(yǔ)音的設(shè)計(jì)產(chǎn)品,逐步發(fā)展并成為主流。

二、VUI與GUI相比的優(yōu)勢(shì)與劣勢(shì)

以目前我們TXD團(tuán)隊(duì)沉淀的 GUI 設(shè)計(jì)原則為檢驗(yàn)標(biāo)準(zhǔn),進(jìn)行橫向切割,縱向?qū)Ρ?VUI 的優(yōu)勢(shì)劣勢(shì)。

1. 主要的優(yōu)勢(shì)

2. 主要的劣勢(shì)

因此,通過對(duì)比我們發(fā)現(xiàn):GUI 在清晰、高效、通用方面更具優(yōu)勢(shì),這也恰恰是人們獲取信息的關(guān)鍵,能夠準(zhǔn)確給用戶提供幫助,且具有很好的延展性和通用性,相對(duì)于「一問一答」點(diǎn)狀獲取信息的方式,更為高效。

VUI 則是設(shè)計(jì)所要追求的一種最自然、最親切的交互方式,是「帶有情感、溫度的交互體驗(yàn)」,真正的從用戶角度出發(fā)。

從我個(gè)人角度來(lái)看,在目前技術(shù)發(fā)展的階段,VUI 更多是一種輔助,至少短時(shí)間內(nèi)不會(huì)完全取代 GUI。

三、設(shè)計(jì)流程

日常設(shè)計(jì)工作中,大家都會(huì)按照一定的設(shè)計(jì)流程開展工作,通用的流程一般有:探索調(diào)研 > 分析聚焦 > 設(shè)計(jì)策略 > 測(cè)試驗(yàn)證。

同樣,這個(gè)流程可以復(fù)用到語(yǔ)音交互設(shè)計(jì)中,只是設(shè)計(jì)對(duì)象的媒介和我們產(chǎn)出的設(shè)計(jì)原型發(fā)生了改變,但我們發(fā)現(xiàn)問題、解決問題的思路應(yīng)該是類似且可復(fù)用的。

具體的設(shè)計(jì)流程與環(huán)節(jié)如下圖:

1. 探索調(diào)研

(1)明確需求

筆者所參與的項(xiàng)目是「公司機(jī)房服務(wù)的工業(yè)機(jī)器人」 的語(yǔ)音設(shè)計(jì),這類產(chǎn)品的功能比家用設(shè)備的更為強(qiáng)大,除了語(yǔ)音外,它支持:行走、人臉識(shí)別、任務(wù)解析、數(shù)據(jù)采集等,同時(shí)場(chǎng)景也更為復(fù)雜。

首先機(jī)房環(huán)境聲音嘈雜、環(huán)境復(fù)雜;它的性質(zhì)又決定對(duì)人員的安全要求極高,需要準(zhǔn)確的識(shí)別與判斷,這些在了解需求階段是必須明確的環(huán)節(jié)。

機(jī)器人的主要功能就是輔助參觀人員、維修人員、駐場(chǎng)工程師更好的完成機(jī)房工作,實(shí)現(xiàn)機(jī)房業(yè)務(wù)管理智能化,提高運(yùn)維管理效率和準(zhǔn)確率。那么作為體驗(yàn)設(shè)計(jì)方,則是通過各場(chǎng)景、各環(huán)節(jié)的體驗(yàn)設(shè)計(jì),讓人與機(jī)器人、與系統(tǒng)的交互高效、自然、流暢,讓智能化的機(jī)房日常運(yùn)維管理更加完善。

(2)了解業(yè)務(wù)場(chǎng)景及目標(biāo)用戶

不同的場(chǎng)景,意味著用戶不同的需求和目的,對(duì)語(yǔ)音交互的要求也不相同。下面就針對(duì)機(jī)房環(huán)境進(jìn)行場(chǎng)景分析與設(shè)計(jì)難點(diǎn)的介紹。

通過團(tuán)隊(duì)的調(diào)研,收集到在整個(gè)數(shù)據(jù)中心有5類用戶,其中會(huì)進(jìn)入機(jī)房與機(jī)器人直接發(fā)生交互的主要有三類:訪客、廠商、數(shù)據(jù)中心駐場(chǎng)。

(3)技術(shù)水平

硬件。目前的語(yǔ)音產(chǎn)品包括:純語(yǔ)音(天貓精靈)和語(yǔ)音及界面結(jié)合(iphone 的 siri)兩種配置。

在設(shè)計(jì)之初,我們需要了解語(yǔ)音產(chǎn)品的基本硬件配置,這其中也包括麥克風(fēng)、攝像頭、聽筒、設(shè)備聯(lián)網(wǎng)程度等,因?yàn)?,產(chǎn)品的配置會(huì)影響我們后期的設(shè)計(jì)策略與體驗(yàn)。

例如:?jiǎn)栒Z(yǔ)音產(chǎn)品:「世界十大旅游勝地都是哪些?中國(guó)56個(gè)名族都有什么?」,即便語(yǔ)音助手可以準(zhǔn)確的告訴我們答案,但無(wú)疑是一個(gè)沉重的認(rèn)知與記憶負(fù)擔(dān),如果配合屏幕來(lái)顯示,情況會(huì)好很多。

最好的人機(jī)交互形式是混合型的,即 GUI+VUI。(圖像交互+語(yǔ)音交互)如圖 echo show,如果你所設(shè)計(jì)的是純語(yǔ)音產(chǎn)品,那么在設(shè)計(jì)時(shí)則需要考慮更多的引導(dǎo)、容錯(cuò)、提示等。

本次項(xiàng)目中所涉及的機(jī)器人不帶顯示屏幕,并且語(yǔ)音不聯(lián)網(wǎng),這就意味著所有對(duì)話都需要提前預(yù)設(shè)好,設(shè)計(jì)師需要根據(jù)可能出現(xiàn)的情況,將對(duì)話內(nèi)容完善,并且做必要引導(dǎo),讓用戶按照系統(tǒng)期望的流程進(jìn)行,確保工作順利、安全的開展。

如下圖:通過設(shè)計(jì)去盡量規(guī)避機(jī)器人硬件的缺陷,減少「答非所問」的錯(cuò)誤發(fā)生率和用戶回答的發(fā)散,提高語(yǔ)音交互流程的順暢。

算法。算法方面,則需要通過機(jī)器「深度學(xué)習(xí)」,不斷完善語(yǔ)音識(shí)別、語(yǔ)音理解及語(yǔ)音合成的水平。

目前,語(yǔ)音識(shí)別方面還面臨很多技術(shù)挑戰(zhàn),如:

  • 噪音:恒定噪音(公路上、機(jī)房中) 和突發(fā)噪音(突然異常大聲)。
  • 多人講話:多人講話,設(shè)備能否識(shí)別其中一條信息;同樣多設(shè)備時(shí),如何辨別自己的主人在說(shuō)話。
  • 兒童:兒童說(shuō)話邏輯性較弱,容易出現(xiàn)口吃、長(zhǎng)時(shí)間停頓等現(xiàn)象。
  • 短句:「是」、「不」這種短句提供的數(shù)據(jù)信息較少,會(huì)造成識(shí)別率低。
  • 多音字:比如人名,同樣的音會(huì)有多種書寫文字「清」「輕」,會(huì)影響語(yǔ)音識(shí)別的準(zhǔn)確性。

更多關(guān)于機(jī)器人「深度學(xué)習(xí)」的內(nèi)容大家可以自行了解,這里不展開討論。

2. 分析聚焦

具體在分析聚焦階段,圍繞與機(jī)器人相關(guān)的機(jī)房工作人員,洞察并提升他們?cè)诠ぷ髦械姆?wù)體驗(yàn),確保順暢、安全、高效的工作流程。

(1)用戶畫像

針對(duì)定位的三類用戶,我們通過問卷,進(jìn)?用戶訪談,旨在了解各個(gè)不同角?的用戶他們工作的內(nèi)容、需求,以及有哪些痛點(diǎn)可以抽取出來(lái)由機(jī)器人替代。

共計(jì)訪問10位用戶,包含各個(gè)角色。訪問之后,我們對(duì)用戶訪談的結(jié)果進(jìn)行整理,在此基礎(chǔ)上,完成用戶角色建模。

以駐場(chǎng)工程師為例,具體的用戶角色卡如下圖所示:

根據(jù)用戶畫像和調(diào)研中收集的問題進(jìn)行聚類分析,得到用戶訴求,即對(duì)機(jī)器人應(yīng)用場(chǎng)景下的機(jī)房服務(wù)的「服務(wù)主張」,圍繞「安全」、「規(guī)范」、「高效」三個(gè)方面。這三個(gè)機(jī)房服務(wù)的體驗(yàn)?zāi)繕?biāo),也是作為后續(xù)機(jī)器人語(yǔ)音設(shè)計(jì)所要達(dá)到的基本要求。

(2)體驗(yàn)地圖

與機(jī)器人交互的環(huán)節(jié)涉及到線上、線下,從線上任務(wù)的提交到線下與機(jī)器人真實(shí)交互,再到過程中機(jī)器人收集信息的回傳,整個(gè)閉環(huán)鏈路構(gòu)成機(jī)房機(jī)器人服務(wù)體驗(yàn)的核心。

以其中導(dǎo)覽場(chǎng)景為例,介紹整體流程,線上的主要觸點(diǎn):任務(wù)申請(qǐng) > 任務(wù)生成 > 任務(wù)確認(rèn) > 任務(wù)存檔;線下的主要觸點(diǎn):任務(wù)下發(fā) > 機(jī)器人喚醒及用戶身份驗(yàn)證 > 任務(wù)執(zhí)行 > 任務(wù)結(jié)束。

具體的觸點(diǎn)詳情及語(yǔ)音流程見下圖:

經(jīng)過體驗(yàn)地圖的梳理與流程規(guī)劃,去構(gòu)建合理、有序的流程,在任務(wù)執(zhí)行過程中保證人機(jī)交互「自然、親切、可靠」的體驗(yàn)。在語(yǔ)音交互設(shè)計(jì)中也會(huì)利用適當(dāng)?shù)囊龑?dǎo)與必要的提示,以更自然的方式消除異常時(shí)的尷尬,快速做到工作銜接。

3. 設(shè)計(jì)策略

(1)定義角色人格

VUI 產(chǎn)品是一個(gè)虛擬的人與用戶直接溝通,因此,溝通對(duì)象的語(yǔ)氣風(fēng)格、性格等則是用戶接觸的第一感受,為了提升真實(shí)性,定義一個(gè)符合自己產(chǎn)品調(diào)性的角色至關(guān)重要,也是著手真正語(yǔ)音設(shè)計(jì)的第一步。

這里的角色,是通過應(yīng)用程序的語(yǔ)音及語(yǔ)言選擇,塑造一個(gè)符合品牌服務(wù)特征,并且具有人格或心理的形象。

角色人格包含:

  • 公司所傳達(dá)的態(tài)度;
  • 產(chǎn)品的個(gè)性特征;
  • 期望別人如何看待它。

在設(shè)計(jì)時(shí),我們可以用「真實(shí)的人物」來(lái)定義聲音特征與溝通基調(diào),分析、了解真實(shí)人物模型的個(gè)性特征。例如:兒童早教類語(yǔ)音產(chǎn)品,可以以大家熟知的「金龜子」為人格原型進(jìn)行定義,溝通中模仿她的語(yǔ)氣、用詞,讓兒童感到親切并符合服務(wù)對(duì)象的特征喜好。

但這里值得注意的是,現(xiàn)在很多語(yǔ)音助手支持語(yǔ)音選擇,如男聲、女聲、少年等。我們要知道,「改變聲音的同時(shí),就意味著換了不同的人格」,他們的語(yǔ)音交互特征、形式等應(yīng)該發(fā)生相應(yīng)變化。

(2)語(yǔ)音交互設(shè)計(jì)

語(yǔ)音設(shè)計(jì)的原型更像是「劇本設(shè)計(jì)」,需要考慮在哪個(gè)場(chǎng)景下,包含什么角色、他們?nèi)绾螌?duì)話、如何過度銜接、具體的語(yǔ)言如何等。如下圖:就是在此次項(xiàng)目中輸出的語(yǔ)音設(shè)計(jì)原型,具體內(nèi)容涉及到信息隱私,這里就不展開了。但是整個(gè)語(yǔ)音交互腳本中,對(duì)場(chǎng)景、角色、對(duì)話腳本備注圖例、腳本正文等都做了明確定義與設(shè)計(jì)。

(3)語(yǔ)音交互引導(dǎo)

在設(shè)計(jì)語(yǔ)音腳本內(nèi)容時(shí),需要特別考慮 VUI 與人對(duì)話過程的語(yǔ)言銜接、對(duì)話內(nèi)容的順暢,并且能夠自然的完成設(shè)想的任務(wù)。例如:當(dāng)詢問用戶信息時(shí),最好給出一些示例,而不是說(shuō)明。

以下兩句話大家可以明顯感受到體驗(yàn)的差異,對(duì)于用戶來(lái)說(shuō),參照示例填寫信息,比理解一個(gè)通用指令更加容易。

  • 「請(qǐng)告訴我你的出生日期,如2017年12月12日」;
  • 「請(qǐng)告訴我你的出生日期,包括年月日」;

(4)語(yǔ)音交互反饋

在 GUI 界面中,「確認(rèn)反饋」隨處可見,點(diǎn)擊一個(gè)按鈕、進(jìn)行一個(gè)編輯操作,設(shè)計(jì)師會(huì)設(shè)計(jì)不同重要程度的交互反饋;在 VUI 中,同樣有不同程度的「確認(rèn)反饋」,本文主要將他們分為三種:顯性確認(rèn)、隱形確認(rèn)、視覺確認(rèn)。

(5)語(yǔ)音交互異常處理

語(yǔ)音可能存在的異常情況主要有以下四種:

  1. 未檢測(cè)到語(yǔ)音 (明確告訴用戶「我沒聽清」);
  2. 檢測(cè)到語(yǔ)音,但沒有識(shí)別(「我不明白你的意思」);
  3. 語(yǔ)音被正確識(shí)別,但系統(tǒng)無(wú)法處理(「出現(xiàn)異常」);
  4. 部分語(yǔ)音識(shí)別錯(cuò)誤(答非所問)。

在設(shè)計(jì)中,我們可以按照不同的異常情況,設(shè)計(jì)多種播報(bào)腳本,提高產(chǎn)品容錯(cuò)性,緩解異常時(shí)候的尷尬,在此例舉些常見的用戶語(yǔ)音輸入錯(cuò)誤的回答,如下圖。

4. 測(cè)試驗(yàn)證

(1)語(yǔ)音原型測(cè)試

以項(xiàng)目中團(tuán)隊(duì)采用的兩種腳本測(cè)試方式為例,分別是:劇本朗讀和語(yǔ)音轉(zhuǎn)換工具。通過劇本朗讀,體驗(yàn)對(duì)話的流暢程度,確認(rèn)是否存在對(duì)話呆板、重復(fù)、不自然的情況;通過文字轉(zhuǎn)語(yǔ)音工具,如QQ語(yǔ)音轉(zhuǎn)化,可以較真實(shí)的感受機(jī)器將對(duì)話說(shuō)出來(lái)的效果。

(2)設(shè)備測(cè)試調(diào)優(yōu)

設(shè)計(jì)交付后,功能開發(fā)完成,進(jìn)入語(yǔ)音設(shè)備可運(yùn)行階段,這時(shí)系統(tǒng)具備測(cè)試功能。

測(cè)試調(diào)優(yōu)的方法同樣給大家列舉兩個(gè):

  • 一是可以通過開發(fā)、設(shè)計(jì)人員,進(jìn)行實(shí)際人機(jī)測(cè)試,了解語(yǔ)音功能是否穩(wěn)定、任務(wù)完成率如何、整個(gè)體驗(yàn)流程是否自然順暢;
  • 二是可以通過用戶觀察的方法進(jìn)行調(diào)研,找到符合特征的目標(biāo)測(cè)試用戶,利用機(jī)房的監(jiān)控?cái)z像頭,觀察「自然狀態(tài)下」的用戶如何工作,這樣不會(huì)干擾用戶,更貼近真實(shí)的使用情景。

四、總結(jié)

語(yǔ)音交互設(shè)計(jì)僅靠書本上的知識(shí)是不夠的,需要設(shè)計(jì)師在實(shí)際項(xiàng)目中不斷的探索與學(xué)習(xí),除了要像 GUI 了解需求、業(yè)務(wù)場(chǎng)景、目標(biāo)用戶以外,還要了解語(yǔ)音設(shè)備的技術(shù)水平、設(shè)備配置等,從而有的放矢的展開設(shè)計(jì)。

以上是筆者首次接觸語(yǔ)音交互設(shè)計(jì)的設(shè)計(jì)經(jīng)過,對(duì) VUI 設(shè)計(jì)中的知識(shí)點(diǎn)、流程、方法進(jìn)行的總結(jié),仍有很多不全面之處,后續(xù)隨著項(xiàng)目的迭代和設(shè)計(jì)的深入,逐步去完善體驗(yàn),總結(jié)沉淀。

 

本文由 @阿里TXD 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 特別好;

    來(lái)自江蘇 回復(fù)
  2. 作為入門的參考材料,寫得很不錯(cuò),UX的工作基本上都是圍繞這些工作。

    回復(fù)
  3. 很棒

    來(lái)自浙江 回復(fù)
  4. 幫了我好多,謝謝。

    來(lái)自廣東 回復(fù)
  5. 你好,我是微信公眾號(hào)的運(yùn)營(yíng)者,同問能否授權(quán)VUI和GUI比較優(yōu)劣勢(shì)的圖片,微信公眾號(hào)ID:LinearCapital

    來(lái)自江蘇 回復(fù)
    1. 不好意思才看到,想問一下授權(quán)會(huì)注明出處并提供原文地址嘛?

      來(lái)自北京 回復(fù)
  6. 感謝分享,最近也在寫一些類似的文章,請(qǐng)問能授權(quán)使用其中VUI優(yōu)劣勢(shì)對(duì)比的兩張圖么

    來(lái)自浙江 回復(fù)
  7. 厲害??,干貨

    回復(fù)