與智能設(shè)備對(duì)話,什么是好的聊天對(duì)話體驗(yàn)?

0 評(píng)論 5556 瀏覽 26 收藏 14 分鐘

導(dǎo)語(yǔ):與智能設(shè)備交流是人類的夢(mèng)想,隨著語(yǔ)音技術(shù)的發(fā)展,這一夢(mèng)想正在變?yōu)楝F(xiàn)實(shí)。百度體驗(yàn)設(shè)計(jì)團(tuán)隊(duì)致力于智能設(shè)備對(duì)話體驗(yàn)設(shè)計(jì)及研究,部分研究成果發(fā)表在國(guó)際知名學(xué)術(shù)會(huì)議MobileHCI(中國(guó)計(jì)算機(jī)學(xué)會(huì)CCF指定的B類會(huì)議),現(xiàn)將文章部分內(nèi)容與大家分享和交流。

過(guò)去四十年,人與機(jī)器之間的交互媒介在不斷進(jìn)化,自然語(yǔ)言對(duì)話作為新一代的人機(jī)交互媒介,近些年得到廣泛的關(guān)注和應(yīng)用;從智能家居設(shè)備到智能手機(jī)助手,從智能客服到智能情感陪伴,人們可以與越來(lái)越多的設(shè)備進(jìn)行自然語(yǔ)言對(duì)話。

小度智能音箱 /?語(yǔ)音助手Siri?/?數(shù)字人服務(wù) /?智能機(jī)器人

按照對(duì)話的主題和目的,可以將人與機(jī)器的自然語(yǔ)言對(duì)話分為兩種類型:任務(wù)型對(duì)話、聊天型對(duì)話。

  • 任務(wù)型對(duì)話以完成用戶的特定任務(wù)為目標(biāo),用戶的交互意圖明確,例如用戶通過(guò)語(yǔ)音對(duì)話完成預(yù)定機(jī)票和購(gòu)物等任務(wù)。
  • 聊天型對(duì)話不具體幫助用戶完成某個(gè)特定任務(wù),而是通過(guò)用戶與設(shè)備之間的開(kāi)放式對(duì)話,安撫用戶情緒或滿足閑聊和娛樂(lè)的需求;有研究表明,具有聊天功能的智能產(chǎn)品更容易獲得用戶的信任,并提升用戶的整體使用體驗(yàn)。

與智能設(shè)備對(duì)話的兩種類型

從用戶體驗(yàn)的角度,任務(wù)型對(duì)話體驗(yàn)可以通過(guò)對(duì)用戶完成任務(wù)的情況進(jìn)行評(píng)價(jià),例如可以采用任務(wù)完成率、時(shí)間效率等指標(biāo);然而,針對(duì)聊天型對(duì)話體驗(yàn)?zāi)壳斑€缺乏有效的評(píng)估方法和框架。

本文從用戶體驗(yàn)的視角出發(fā),探索適用于聊天型對(duì)話體驗(yàn)的評(píng)估方法。

在研究方法上,采用定性和定量相結(jié)合的方法,首先通過(guò)定性研究的方法收集評(píng)估指標(biāo),然后通過(guò)定量研究的方法對(duì)指標(biāo)體系進(jìn)行優(yōu)化和驗(yàn)證,以搭建一套信效度良好、可廣泛應(yīng)用的評(píng)估體系。

研究分為三個(gè)階段:

  • 定性收集評(píng)估指標(biāo),確保收集到的指標(biāo)全面且有意義;
  • 將指標(biāo)體系應(yīng)用于智能設(shè)備測(cè)試,通過(guò)定量的方法進(jìn)行評(píng)估體系的建構(gòu)和優(yōu)化;
  • 對(duì)評(píng)估體系的模型進(jìn)行應(yīng)用和驗(yàn)證,得到評(píng)估指標(biāo)間的權(quán)重系數(shù),確保評(píng)估體系科學(xué)和可靠。

研究過(guò)程與研究方法

一、從0到1:全面收集聊天型對(duì)話評(píng)估指標(biāo)

為確保指標(biāo)全面、有意義且容易讓用戶理解,收集過(guò)程經(jīng)歷了3個(gè)步驟:

  1. 參考以往的關(guān)于任務(wù)型對(duì)話和聊天型對(duì)話的研究,選取合適的指標(biāo);然后通過(guò)頭腦風(fēng)暴,更全面地收集,此階段共收集45個(gè)評(píng)估指標(biāo);
  2. 結(jié)合智能設(shè)備產(chǎn)品專家的建議,篩選與用戶實(shí)際需求相匹配的評(píng)估指標(biāo)。然后請(qǐng)專家評(píng)估指標(biāo)重要性和易理解程度,刪除不適合聊天對(duì)話體驗(yàn)評(píng)價(jià)和重要性低的指標(biāo),保留了24個(gè)指標(biāo);
  3. 邀請(qǐng)普通用戶對(duì)指標(biāo)的易理解程度進(jìn)行評(píng)價(jià),對(duì)表述不清、難以理解或有歧義的指標(biāo)進(jìn)行修改或刪除;最終,形成由20個(gè)指標(biāo)組成的聊天體驗(yàn)評(píng)估體系。

最初收集的20個(gè)聊天對(duì)話體驗(yàn)評(píng)估指標(biāo)

二、去偽存真:構(gòu)建聊天型對(duì)話評(píng)估指標(biāo)體系

1. 用戶測(cè)試

我們將階段一得到的評(píng)估指標(biāo)應(yīng)用到人機(jī)聊天測(cè)試中,通過(guò)用戶測(cè)評(píng)數(shù)據(jù)的統(tǒng)計(jì)分析及定性訪談進(jìn)一步優(yōu)化評(píng)估指標(biāo),并通過(guò)探索性因子分析探索指標(biāo)體系的結(jié)構(gòu)。

共有38名被試參與了用戶測(cè)試,年齡在20-40歲之間,男性18人,女性20人;所有被試均為智能音箱聊天功能使用經(jīng)驗(yàn)用戶,其中,經(jīng)驗(yàn)豐富者(每天聊天3次以上)和經(jīng)驗(yàn)較少者(每周聊天3次以下)各一半。

用戶測(cè)試場(chǎng)景

在用戶測(cè)試過(guò)程中,我們選擇了5款主流且具有聊天對(duì)話功能的智能音箱,分別標(biāo)記為智能音箱A、智能音箱B、智能音箱C、智能音箱D、智能音箱E。

被試按照隨機(jī)順序,分別與5款智能音箱圍繞4類話題進(jìn)行聊天對(duì)話,4類聊天話題分別為:調(diào)侃類、建議咨詢類、話題聊天類、情緒排解類。

用戶測(cè)試中的4類聊天對(duì)話話題

被試與智能音箱聊天對(duì)話結(jié)束后,將分別對(duì)各智能音箱聊天對(duì)話的體驗(yàn)進(jìn)行打分,打分采用10點(diǎn)李克特量表,1分代表非常不滿意,10分代表非常滿意;最后,被試需要完成關(guān)于聊天體驗(yàn)評(píng)估指標(biāo)重要性的Kano問(wèn)卷。

2. 指標(biāo)構(gòu)建與優(yōu)化

38個(gè)被試分別體驗(yàn)5款智能音箱的聊天對(duì)話功能后,將每個(gè)用戶每款音箱的數(shù)據(jù)作為一個(gè)樣本數(shù)據(jù),共得到有效樣本數(shù)據(jù)168份。

結(jié)合Kano模型、相關(guān)性分析、多重共線性診斷與定性訪談的用戶反饋,優(yōu)化評(píng)估指標(biāo),包括對(duì)指標(biāo)進(jìn)行刪除或合并,以及對(duì)部分指標(biāo)的描述進(jìn)行修正;優(yōu)化后的指標(biāo)如下表所示,共計(jì)包括15個(gè)評(píng)價(jià)指標(biāo)。

優(yōu)化后的聊天對(duì)話體驗(yàn)評(píng)估指標(biāo)

我們對(duì)優(yōu)化后的15個(gè)指標(biāo)進(jìn)行探索性因子分析,采用最大方差法旋轉(zhuǎn)因子,抽取特征值大于1的因子;最終提取了2個(gè)因子,累積方差貢獻(xiàn)率為68.0%,探索性因子分析結(jié)果如下表所示。

探索性因子分析結(jié)果

綜合考慮因子1和因子2所包含的各項(xiàng)指標(biāo),我們分別將這兩個(gè)因子命名為“聽(tīng)懂連續(xù)對(duì)話及內(nèi)容質(zhì)量”和“表達(dá)方式及聲音”,從而得到評(píng)估指標(biāo)的體系結(jié)構(gòu)。

在探索性因子分析的基礎(chǔ)上,我們進(jìn)一步計(jì)算了每一個(gè)指標(biāo)在整體滿意度上的權(quán)重,最終的聊天體驗(yàn)評(píng)估體系結(jié)構(gòu)及權(quán)重系數(shù)如下表所示。

評(píng)估體系結(jié)構(gòu)及權(quán)重系數(shù)

三、應(yīng)用實(shí)踐:聊天型對(duì)話評(píng)估指標(biāo)體系應(yīng)用

1. 測(cè)量結(jié)果

我們將建立的聊天對(duì)話評(píng)估體系應(yīng)用于5款智能音箱聊天體驗(yàn)的評(píng)估,因文章篇幅原因,具體評(píng)估和計(jì)算過(guò)程不贅述,評(píng)估結(jié)果如下表所示,該評(píng)估體系可以用于橫向?qū)Ρ雀髦悄芤粝淞奶煜到y(tǒng)能力。

基于評(píng)估體系的聊天對(duì)話體驗(yàn)測(cè)量

2. 聊天對(duì)話示例

接下來(lái),我們針對(duì)評(píng)估體系中權(quán)重相對(duì)較高的幾個(gè)指標(biāo),如內(nèi)容質(zhì)量相關(guān)的內(nèi)容有價(jià)值、開(kāi)啟新話題、聯(lián)系上下文等指標(biāo),以及表達(dá)方式相關(guān)的表達(dá)多樣化、表達(dá)自然流暢等指標(biāo);選取部分用戶與設(shè)備聊天對(duì)話的具體示例,以便大家對(duì)什么是好的和不好的聊天對(duì)話體驗(yàn)有更直觀的感受。

內(nèi)容有價(jià)值:

用戶期望通過(guò)聊天對(duì)話獲得有價(jià)值的內(nèi)容,尤其在“建議咨詢”的聊天場(chǎng)景下。

對(duì)話示例1(用戶正向評(píng)價(jià))

對(duì)話示例2(用戶負(fù)向評(píng)價(jià))

開(kāi)啟新話題:

在聊天模式下,用戶不希望輕易把天聊死,希望智能設(shè)備能夠主動(dòng)留下話茬。

對(duì)話示例3(用戶正向評(píng)價(jià))

聯(lián)系上下文:

用戶期望與智能設(shè)備聊天時(shí),聊天過(guò)程能聯(lián)系上下文,不要前后邏輯矛盾。

對(duì)話示例4(用戶負(fù)向評(píng)價(jià))

表達(dá)多樣化:

用戶期望設(shè)備的回復(fù)內(nèi)容更多樣化和豐富,以避免讓用戶覺(jué)得是設(shè)定好的程序。

對(duì)話示例5(用戶正向評(píng)價(jià))

對(duì)話示例6(用戶負(fù)向評(píng)價(jià))

表達(dá)自然流暢:

用戶期望自然流暢的表達(dá),聊天對(duì)話符合人們?nèi)粘Uf(shuō)話用語(yǔ)和習(xí)慣。

對(duì)話示例7(用戶正向評(píng)價(jià))

對(duì)話示例8(用戶負(fù)向評(píng)價(jià))

四、小結(jié)

以智能音箱聊天對(duì)話體驗(yàn)評(píng)估為課題,本研究提出了一套完整的評(píng)估方法,并建立了針對(duì)聊天型對(duì)話體驗(yàn)的指標(biāo)體系和評(píng)估框架,該指標(biāo)體系及其權(quán)重一定程度上反映了用戶對(duì)聊天對(duì)話體驗(yàn)的需求和關(guān)注程度,可以為后續(xù)產(chǎn)品體驗(yàn)優(yōu)化提供參考方向。

然而,本研究也存在一定的局限性,一方面,目前多數(shù)智能設(shè)備會(huì)同時(shí)具備任務(wù)型對(duì)話和聊天型對(duì)話兩種能力,從用戶視角可能無(wú)法清晰區(qū)分兩種自然語(yǔ)言對(duì)話場(chǎng)景;另一方面,由于與智能設(shè)備對(duì)話仍處于探索期,產(chǎn)品迭代很快,用戶的預(yù)期也會(huì)隨之改變;因此,評(píng)估指標(biāo)體系的權(quán)重也可能發(fā)生變化,未來(lái)可能需要持續(xù)監(jiān)測(cè)和修改評(píng)估指標(biāo)體系。

參考文獻(xiàn):

Chat with Smart Conversational Agents:How to Evaluate Chat Experience in Smart Home. Xiantao Chen, Jiaqi Mi, Menghua Jia, Yajuan Han, Moli Zhou, Tian Wu. MobileHCI 2019.

 

作者:百度技術(shù)中臺(tái)UER小分隊(duì)

本文由 @Du Design 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖由作者提供

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!