国产精品美女久久福利，国产欧美韩国精品一区，色七七在线综合视频，亚洲午夜成人国产福利，亚洲日韩中文字幕无码，人妻无码一区二区在线，国产成人精品AAA，男人天堂va2021

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

語音交互優(yōu)勢場景產(chǎn)品設(shè)計

長青

2020-05-12

2 評論 8043 瀏覽 69 收藏

16 分鐘

語音交互逐漸在更多的場景里替代可視化交互，或者賦能可視化交互。上世紀(jì)80年代語音交互技術(shù)就出現(xiàn)在計算機(jī)里了，為什么好像最近幾年才真正走入大眾的生活中？

其實(shí)語音交互的發(fā)展經(jīng)歷了三個階段：

第一階段是上世紀(jì)80年代，語音交互能夠?qū)崿F(xiàn)一問一答，但不能理解上下文，不能連續(xù)對話。隨著人工智能深度學(xué)習(xí)算法的發(fā)展，計算機(jī)語義理解的能力越來越強(qiáng)；
大約在2009年的時候，隨著siri的出現(xiàn)，進(jìn)入第二階段，能有問有答，能夠理解上下文，但是這種應(yīng)用場景還不太普及；
第三階段，2014年Amazon Echo的出現(xiàn)，實(shí)現(xiàn)了應(yīng)用的革新，拓展了遠(yuǎn)場交互的場景，2017年的時候智能音箱的快速發(fā)展才使得語音交互的方式才逐漸走入大眾的視野。

語音交互的技術(shù)的實(shí)現(xiàn)包括三個環(huán)節(jié)：聽（ASR）、語義理解（NLP）、和說（TTS）。

聽：把語音識別成文字，用的是ASR技術(shù)。
語義理解：把文字輸入轉(zhuǎn)化為文字輸出。通過語法判斷、上下文理解、關(guān)系理解、知識圖譜等技術(shù)。就是理解文字的含義后，把想反饋的回答以文字表達(dá)出來，使用NLP技術(shù)。（把流程和技能歸到這一環(huán)節(jié)）
說：把文字合成為語音，用的是TTS技術(shù)。

相比于成熟的可視化交互，語音交互的場景還有許多可以挖掘的方面。相比于可視化的交互，哪些場景下人們更傾向于語音交互呢？

本文從不同語音交互動機(jī)進(jìn)行分析，探討一下語音交互的產(chǎn)品設(shè)計。

首先，語音交互的場景很多，在不同的場景下，人們使用語音交互的動機(jī)大致可以歸納為以下四種：

更快：省去信息填寫、省去界面操作等；
更輕便：更輕的硬件攜帶成本；
學(xué)習(xí)成本更低：相比可視化更貼合用戶使用習(xí)慣；
被動信息獲取成本更低：信息觸達(dá)用戶的方式更高效。

以下詳細(xì)分析一下這四種動機(jī)的場景和產(chǎn)品設(shè)計。

更快

語音交互主要使用動機(jī)之一是快?？梢暬换グ言S多復(fù)雜的業(yè)務(wù)縮短到了幾分鐘以內(nèi)，而語音交互進(jìn)一步把幾分鐘的流程縮短為秒的級別，因?yàn)槿苏f一句話大概也就3-20秒吧。

這也是語音交互在應(yīng)用中的主要優(yōu)勢，場景舉例：

小N感覺身體有點(diǎn)不舒服，想去醫(yī)院看一下，打算先預(yù)約掛號。

方案一：在手機(jī)上找到預(yù)約的app，按流程進(jìn)行預(yù)約。找到想去的醫(yī)院、選擇科室、選擇日期、選擇或輸入自己的醫(yī)?？ǖ刃畔ⅲ缓蟠_認(rèn)掛號預(yù)約并支付。

方案二：對語?助?說，“?愛同學(xué)，幫我預(yù)約某某醫(yī)院后天上午內(nèi)科的普通掛號”，語?助?完成任務(wù)后，回復(fù)“已預(yù)約后天上午某某醫(yī)院的內(nèi)科的普通掛號，請在?機(jī)上確認(rèn)?付?！?/p>

在這個場景中，圖形界面流程與語?流程的對?：

很明顯，AI的語義理解能力把“查找和選擇”的行為高效地代勞了，原本界面操作要花去5-10分鐘的事情，語音交互用幾十秒完成了。哪些情況下語音交互能體現(xiàn)出這種高效性？在用戶熟悉、高頻、復(fù)雜流程的場景中能體現(xiàn)，比如點(diǎn)餐、購物、出行等。

語音交互的快速性還會在以下幾個方面中體現(xiàn)出來：

數(shù)據(jù)存儲

語音的信息錄入門檻高，所以從效率自然發(fā)展的角度來說，要么減少錄入次數(shù)，要么加速錄入過程。因?yàn)椤案臁边@種動機(jī)容易出現(xiàn)在高頻場景，所以比起加速錄入，減少錄入次數(shù)是更明智的選擇。

既然要減少錄入次數(shù)，那么信息就必須錄入后存儲起來，所以語音交互的用戶信息存儲量有增大的趨勢。而且隨著用戶信息存儲量的增加，語音交互的效率提升會越來越明顯，“快”的優(yōu)勢就會發(fā)揮出來。所以，數(shù)據(jù)存儲在用戶語音交互“更快”上會發(fā)揮重要作用。

聲紋識別無縫登錄

聲紋識別技術(shù)的應(yīng)用也是語音交互“快”的重要環(huán)節(jié)。聲紋識別就是以聲識人，準(zhǔn)確率高達(dá)99.7%，已經(jīng)應(yīng)用在一些考勤、門禁系統(tǒng)中。這種技術(shù)用在登錄上，相比可視化的登錄方式，是比“一鍵登錄”還要快的登錄方式。因?yàn)榈卿涍^程，用戶可以完全無感知地完成，一句喚醒詞就能識別出身份，很多的授權(quán)流程就直接完成了。

多輪對話

多輪對話也是語音快速性的重要環(huán)節(jié)。上述醫(yī)院預(yù)約的場景中雖然流程看起來很短，但一句話完成的交互，在實(shí)際中大概率會引起多輪對話。引起多輪對話的原因有可能是信息更改，也有可能是信息補(bǔ)充。比如醫(yī)院掛號會需要選擇主治醫(yī)師，或者當(dāng)天的時間約滿了需要改時間等等。

總的來說，多輪對話這種交互方式，在快速性上會從以下幾個方面發(fā)揮優(yōu)勢：

（1）快速修正

語音對話要修正某個信息，可以保證其他信息不改變。比如上面醫(yī)院的例子中，用戶選擇了醫(yī)院、科室、時間。如果用戶想修改科室，在圖形界面中需要返回到上一步，然后更改科室，重新選擇時間。但語音交互改了科室，不用重新選時間。

流程對比如下：

所以，流程越長語音交互節(jié)約的重復(fù)操作越多，優(yōu)勢越明顯。

（2）智能匹配

語音對話中，語音的智能匹配推薦也是幫助用戶節(jié)省流程中重復(fù)選擇的時間。比如剛才醫(yī)院那個場景中，如果用戶要更改醫(yī)院，但是另一家醫(yī)院沒有相同名字的門診，比如有的醫(yī)院沒有呼吸科，只有普通內(nèi)科。用戶想更換一家醫(yī)院的時候，如果沒有直接對應(yīng)的相同的科室，語音助手可以智能推薦同類的科室，用戶無需重新比對和搜索。就像這樣：

如上所示，語音智能匹配可以省略很多重復(fù)的流程。更深一些的智能性，比如智能分診，不僅僅選擇相似的，甚至直接可以根據(jù)用戶對病情的描述，分析用戶的病情推薦最匹配的門診。隨著語音技術(shù)的發(fā)展，智能匹配推薦在語音交互中可以應(yīng)用地?zé)o處不在，會極大加速語音交互的效率。

（3）中斷銜接

智能語音對上下文理解的能力，使得語音交互在對話中斷后，也可以直接地銜接上，避免重復(fù)走流程。比如：

?N：”?愛同學(xué)，幫我預(yù)約某某醫(yī)院明天上午內(nèi)科的普通掛號?！?/p>
語音助手：“某某醫(yī)院明天上午內(nèi)科已約滿，后天上午可預(yù)約，要為你預(yù)約后天上午嗎？”
小N：“我想聽首歌。（用戶中斷了預(yù)約的對話）”
語音助手：“好的，一起來聽音樂?！保ㄒ魳讽懫穑?br /> 小N：“剛剛醫(yī)院預(yù)約改為上午吧?！保ㄓ脩翥暯由蠈υ挘?br /> 語音助手：（搜索剛才的對話記憶，以及用戶信息）“好的，已預(yù)約后天上午某某醫(yī)院的內(nèi)科的普通掛號，請在手機(jī)上確認(rèn)支付?！?/p>

總的來說，語音交互在高頻、復(fù)雜業(yè)務(wù)流程的場景中，相比圖形化交互，在快速性上還是有很多優(yōu)勢的。

更輕便

第二個語音交互動機(jī)是輕便性。在某些場景中，語音交互的方式可以免去許多額外的設(shè)備，比如：

小P是AAA公司的員工，今天要給部門開會，開會前將ppt上傳到了云端。公司的語音系統(tǒng)存儲了所有員工的聲紋信息，小P在會議室時，對語音助手說，“小度，打開投影儀，打開人工智能調(diào)研PPT”，語音助手打開投影儀，查詢到小P的身份，登錄后訪問其云盤數(shù)據(jù)，打開了PPT。

在上述場景中，無語音交互流程和有語音交互流程對比：

如上所示，有語音交互時，U盤這類存儲設(shè)備、PC和一些遙控設(shè)備都不需要了，整個過程是非常輕便的。

學(xué)習(xí)成本更低

第三個語音交互的動機(jī)是學(xué)習(xí)成本更低，換句話說，比可視化交互更貼合用戶使用習(xí)慣。場景舉例：

小A剛開始學(xué)視頻軟件，但是總是記不住什么功能什么快捷鍵在什么位置?！霸趺床眉魣D片？”“先點(diǎn)擊上方菜單欄?！庇脩酎c(diǎn)擊后一步步引導(dǎo)?！霸趺葱薷念伾俊薄包c(diǎn)擊屏幕左邊第四個菜單欄….”

上述場景圖形交互與語音交互流程對比：

如上所示，圖形交互來回切換是比較冗余的，而且隨著步驟越多，冗余性越嚴(yán)重。所以，語音交互的這種動機(jī)主要出現(xiàn)在學(xué)習(xí)和引導(dǎo)型的應(yīng)用場景中，比如老年人協(xié)助、兒童學(xué)習(xí)、步行導(dǎo)航等等。語音交互的這個優(yōu)勢主要在易用性上體現(xiàn)出來。

易用性（智能理解、眼耳配合）

易用性體現(xiàn)的第一個方面是智能理解。當(dāng)用戶提出疑問，語音助手通過語義理解能夠智能地為用戶匹配教程，比起搜索，語音助手還可以更加智能地判斷用戶在操作時所處在的處境，比如用戶已經(jīng)選擇了裁剪工具，但是比起方形裁剪工具，更適合用圓形裁剪工具等等，智能語音可以結(jié)合上下文和其他信息更綜合地理解用戶的意圖。

易用性的第二個方面是眼耳配合?？次恼轮笇?dǎo)教程時只用視覺獲取信息，學(xué)和做的過程不連貫，語音教程解放用戶雙眼，視覺專注于圖形化界面操作，聽覺接收指導(dǎo)信息，學(xué)習(xí)過程更加連貫。

其實(shí)聽覺接收文字信息的速度肯定是比不上視覺的，那為什么會更好呢？

因?yàn)檎Z音教程和圖形界面教程相比，用戶更加專注于眼前的操作，專注度更高，專注度才是學(xué)習(xí)效率提升的關(guān)鍵。也就是說，語音教程其實(shí)是幫助用戶創(chuàng)造了更加沉浸式的學(xué)習(xí)體驗(yàn)。

被動信息獲取成本更低

第四種使用語音交互的動機(jī)是被動信息成本更低，或者說，信息觸達(dá)用戶的方式更加高效。場景舉例：

重要提醒，在家里的時候，比如A想設(shè)置一個1小時后的重要提醒事項(xiàng)，比起手機(jī)提醒，A選擇了用智能音箱提醒。因?yàn)橄啾萈ush提醒，語音提醒是一種更強(qiáng)的提醒。除了設(shè)置起來更簡便外，A怕錯過提醒信息，而喇叭般的音量確保A不會忘記這件事情。

上述場景中，圖形觸達(dá)和語音觸達(dá)流程：

相比圖形觸達(dá)，語音交互把用戶主動獲取的這一環(huán)節(jié)省了，交互的成本更低。好比快遞打電話讓你到小區(qū)門口取和送到你家門口的區(qū)別。但是這種觸達(dá)方式對環(huán)境的私密性有一定要求，公共的場景中突然收到語音提醒并不太符合人的習(xí)慣。

總結(jié)

本文總結(jié)了四種常見的語音交互動機(jī)：更快、更輕便、學(xué)習(xí)成本更低和觸達(dá)用戶更加高效。

更快動機(jī)，主要適用于高頻、復(fù)雜的場景為主，其中多輪對話能力、聲紋識別能力和數(shù)據(jù)存儲設(shè)計可以把語音交互“更快”的優(yōu)勢發(fā)揮出來。
輕便性動機(jī)，語音交互可以替代某些控制設(shè)備和存儲設(shè)備等。
學(xué)習(xí)成本更低動機(jī)，主要通過發(fā)揮語音交互在學(xué)習(xí)型和引導(dǎo)型場景中的易用性。
觸達(dá)用戶高效動機(jī)，通過降低人機(jī)交互的成本來體現(xiàn)優(yōu)勢。

以上是對語音交互的一點(diǎn)思考，總的來說，語音交互相比圖形交互的優(yōu)勢還是很明顯的。

本文由 @長青原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App