語音交互產(chǎn)品的認(rèn)知

3 評(píng)論 14445 瀏覽 138 收藏 20 分鐘

因?yàn)橛脩羰墙Y(jié)果導(dǎo)向的,無論我們?cè)趺创祰u自己的產(chǎn)品有多智能,響應(yīng)速度有多快,理解能力有多強(qiáng),什么網(wǎng)絡(luò)神經(jīng)中樞、神經(jīng)網(wǎng)絡(luò)引擎,只要用戶在使用過程中沒感覺到它的智能點(diǎn),一切貌似都白搭。

在目前的AI產(chǎn)品體系中,廣為人知的主要是三大方向,分別是:圖像(即人臉識(shí)別)、智能推薦(類似于各種推薦引擎產(chǎn)品,如今日頭條等)以及語音交互。

圖像很好理解,去年很火的Face ID就是基于此而設(shè)計(jì),早期的話像是很多公司會(huì)采用的“面部識(shí)別打卡”、臉部識(shí)別登錄設(shè)備等也都是相關(guān)的應(yīng)用。而智能推薦則是通過分析用戶的日常行為、操作等獲得用戶畫像,從而分析出用戶的喜好,為用戶生成并推薦其感興趣的內(nèi)容。說“抖音”一刷就停不下來,很重要的一個(gè)原因就是因?yàn)樗扑]的內(nèi)容多半都是用戶感興趣的內(nèi)容,這就依賴于其智能的算法。

那至于“語音交互”,它究竟是什么?

語音交互是基于語音輸入的新一代交互模式,通過說話就可以得到反饋結(jié)果。生活中最常見的就是手機(jī)內(nèi)置的各種“語音助手”:魅族的小溪、IPhone的siri以及小米的小愛等,都是相關(guān)的產(chǎn)品或者功能。

一.“語音交互”的定義

“語音交互”可以這么來理解:人類設(shè)備通過自然語言完成了信息的傳遞。

在這里我們把它分成了簡(jiǎn)單的四個(gè)內(nèi)容:

1. 人類與設(shè)備

語音交互,屬于“人機(jī)交互”的一種,是人類與機(jī)器之間的溝通、聯(lián)系,比如和手機(jī),和電腦,甚至“智能家居”概念中的和電器?!罢Z音交互”的對(duì)象是人與設(shè)備,而非人與人,如微信,其實(shí)就是用戶通過微信與另一個(gè)用戶形成溝通,這自然就不屬于“人類與設(shè)備”的范疇。

2. 自然語言

是指一種自然地隨文化演化的語言,如漢語、英語、法語等,但如為計(jì)算機(jī)而設(shè)置的語言,即為“人造語言”。自然語言是人類交流和思維的主要工具,對(duì)于自然語言的處理也是人工智能中最為困難的問題之一。

“語音交互”是需要人發(fā)出聲音從而與設(shè)備產(chǎn)生互動(dòng),比如設(shè)鬧鐘,我們喊“Siri,給我設(shè)置一個(gè)明天早上八點(diǎn)的鬧鐘”,這就是通過自然語言與設(shè)備完成了一次互動(dòng),而不是傳統(tǒng)的“打開鬧鐘-設(shè)置時(shí)間”這樣的手動(dòng)操作。因此很重要的一點(diǎn)就是“自然語言”,我們通過設(shè)備定了鬧鐘,然后它發(fā)出了聲音,看起來我們是和設(shè)備完成了一次互動(dòng),但它發(fā)出的不是自然語言,而是鈴聲,即使你是用“人聲”來充當(dāng)鬧鈴,那也不是我們?cè)凇罢Z音交互”中所定義的“自然語言”。

3. 信息的傳遞

即我們通過自然語言與設(shè)備完成了某次互動(dòng),比如定鬧鐘、查導(dǎo)航等,這之間一定是發(fā)生了某次信息從我們這邊流轉(zhuǎn)到了設(shè)備,之后再又回到我們這邊,一個(gè)雙向傳遞的過程。只是有時(shí)候設(shè)備給的回應(yīng)也許是語言,也許是執(zhí)行任務(wù)。

二. 交互方式的發(fā)展

人與設(shè)備的交互方式大致經(jīng)歷了三個(gè)階段的演變:PC時(shí)代、移動(dòng)時(shí)代以及AI時(shí)代。

PC時(shí)代,我們主要靠鼠標(biāo)、鍵盤的外接設(shè)備進(jìn)行輸入,比如鼠標(biāo)雙擊某個(gè)圖標(biāo)打開對(duì)應(yīng)的軟件,要打字也需要敲擊鍵盤才能一個(gè)一個(gè)字符的實(shí)現(xiàn),這樣子的模式很笨重,不靈便。

之后過渡到了移動(dòng)時(shí)代,現(xiàn)在幾乎人手一臺(tái)手機(jī),想要點(diǎn)開什么app,主要手指輕輕一點(diǎn)即可開啟,此時(shí)我們進(jìn)行交互的方式變成了觸摸。所以為什么手機(jī)發(fā)展到如今,十余年的時(shí)間過去了,依舊停留在“觸摸”上,那是因?yàn)榕c傳統(tǒng)的外接設(shè)備來實(shí)現(xiàn)輸入相比,它本身已經(jīng)做到了跨越,而其下一個(gè)階段又還在伊始階段,因此也無法完全被取代。

等什么時(shí)候“手機(jī)”變成“嘴機(jī)”了,也許就發(fā)生變革了。

下一個(gè)時(shí)代也就是“AI時(shí)代”,也就是我們所在討論的“語音交互”時(shí)代??苹秒娪按蠹铱吹貌簧?,很多科幻電影之所以精彩就是因?yàn)樗宫F(xiàn)了未來科技可能的面貌。比如“鋼鐵俠”中,Tony與其研制的人工智能“J.A.R.V.I.S”就存在著及其精彩的交互。(感興趣的自行搜索視頻呦~)

但目前“語音交互”時(shí)代,其實(shí)還是主要停留在“語音輸入”這一內(nèi)容上,即我們對(duì)設(shè)備發(fā)出一個(gè)指令:給我定鬧鐘、告訴我怎么去等等,然后設(shè)備通過執(zhí)行再輸出相應(yīng)的內(nèi)容,這個(gè)是死板的,或者說是程序化的。設(shè)備只會(huì)給你定你所選擇的時(shí)間點(diǎn)的鬧鐘,它也只會(huì)告訴你怎么去,誠然,這是我們想要的,但不夠人性化。

當(dāng)真正地實(shí)現(xiàn)“交互”時(shí),我們所期待的場(chǎng)景應(yīng)該是:我說我要去XX地,設(shè)備讀取指令,經(jīng)過分析之后反饋:那個(gè)地方不遠(yuǎn),平時(shí)走路過去就行,但現(xiàn)在外面下著大雨,我可以為你叫一輛出租車,估計(jì)8分鐘左右就能到達(dá)。

順著這個(gè)思路,我們?cè)倭牧摹罢Z音交互”的一個(gè)發(fā)展歷史。

三. “語音交互”的發(fā)展歷史

主要也是三個(gè)階段:單向收聽、單向輸入、雙向交流。

1. 單向收聽

人人都經(jīng)歷過,如10086的電子助手。我們?cè)趽艽?0086時(shí),給我們回應(yīng)的肯定不是人工客服,而是電子語音:“查詢?cè)捹M(fèi)請(qǐng)按1,套餐及流量辦理請(qǐng)按2”。只有在電子語音無法解決用戶的需求時(shí),才會(huì)在最后說:“如需人工幫助請(qǐng)按0”。

這種是被動(dòng)的,用戶只能被動(dòng)地接受已經(jīng)預(yù)先設(shè)置好的服務(wù),它無法更改,更無法對(duì)用戶在電話那頭的話語做出任何回應(yīng),唯一能夠令它產(chǎn)生變化的就是用戶按動(dòng)相應(yīng)的數(shù)字鍵。

2. 單向輸入

最常見的應(yīng)用就是各種輸入法的“語音識(shí)別轉(zhuǎn)文字”,也就是通常所說的“語音輸入法”。通過說話讓應(yīng)用識(shí)別,之后以文字的形式轉(zhuǎn)出。很多時(shí)候可能一段長對(duì)話需要我們敲鍵盤敲好久,隨著這一技術(shù)的成熟發(fā)展,我們直接說出這段話,之后往往只需要修改幾個(gè)標(biāo)點(diǎn)符合與錯(cuò)別字就能很快地完成一段文字的輸入。

但其最大的缺點(diǎn)依然是無法形成互動(dòng),仍舊是單向的,只不過是從輸出者變成了輸入者。這種時(shí)候它更像是一種工具,當(dāng)我們不想打字的時(shí)候才會(huì)用,畢竟當(dāng)我們用設(shè)備進(jìn)行語音轉(zhuǎn)文字處理時(shí),它不會(huì)自動(dòng)反饋說:我覺得你這邊說的不好,需要進(jìn)行修改。

3. 雙向交流

顧名思義,人與設(shè)備開始形成互動(dòng),即所謂的語音助手,它能幫你處理部分任務(wù)、設(shè)定某些事項(xiàng),同時(shí)也能進(jìn)行一些簡(jiǎn)單的聊天溝通。你輸入的同時(shí),也能得到來自設(shè)備的輸出,從而形成一定的互動(dòng)。

當(dāng)然,它還遠(yuǎn)遠(yuǎn)不成熟,或者說,還沒那么智能,就像一個(gè)孩子,ta也會(huì)對(duì)你哭對(duì)你笑,但當(dāng)你講一些它聽不明白的話時(shí),ta也只會(huì)睜著眼睛看著你,因?yàn)樗婕暗降募夹g(shù)也相對(duì)最復(fù)雜。

舉個(gè)例子:“單向收聽”就像是聽收音機(jī),你在收音機(jī)前的喜怒哀樂電臺(tái)主播并不知道,你只是在聽;“單向輸入”就像是在KTV唱歌,你唱完這首要么繼續(xù)下一首要么機(jī)器顯示沒歌了,并不會(huì)有任何人性化的反饋(除去那些有評(píng)分功能的KTV系統(tǒng));“雙向交流”,就真的是接近人與人之間的溝通交流,就像是兩個(gè)人在打電話,互相說著喜怒哀樂。

最后我們來討論一下相關(guān)的實(shí)現(xiàn)原理,這也是“語音交互”技術(shù)中最核心的一部分。

四.“語音交互”的實(shí)現(xiàn)原理

在網(wǎng)上看了徐嘉南老師的視頻,獲益匪淺,他目前是百度的高級(jí)產(chǎn)品經(jīng)理,他將“語音交互”的實(shí)現(xiàn)原理簡(jiǎn)單地概括為一個(gè)過程,即:用戶說話,系統(tǒng)識(shí)別并理解,之后再轉(zhuǎn)換成聲音反饋出來。

接下來我對(duì)相關(guān)的過程進(jìn)行一個(gè)簡(jiǎn)單的概述。

Talk:用戶發(fā)出聲音——也就是前面所提及的“自然語言”,無論是哪國的,用戶通過說話來與設(shè)備形成信息的傳遞。只有這樣,才會(huì)有后續(xù)一系列的步驟產(chǎn)生。畢竟我們討論的是“語音交互產(chǎn)品”,用戶必須發(fā)聲才能形成互動(dòng),而不是用戶坐在沙發(fā)上設(shè)備就能說“你想要茶還是咖啡?”。

ASR(Automatic Speech Recognition):自動(dòng)語音識(shí)別——在這個(gè)時(shí)候,機(jī)器通過聽取用戶發(fā)出的聲音,將其轉(zhuǎn)化為“文字”供機(jī)器讀取,也就是俗稱的“語音聽寫機(jī)”,是實(shí)現(xiàn)“聲音”到“文字”轉(zhuǎn)換的技術(shù)。在這一環(huán)節(jié)我們比較常見的就是各種“語音輸入法”的功能了。

這一環(huán)節(jié)也是比較容易出錯(cuò)的環(huán)節(jié),有時(shí)候用戶說話有口音,或者說話比較快,設(shè)備就很容易轉(zhuǎn)化出錯(cuò)誤的文字。

NLU(Natural Language Understanding):自然語言理解——此時(shí)機(jī)器嘗試?yán)斫馕淖郑@也是目前在“語音交互產(chǎn)品”中較難突破的一點(diǎn),也是核心的一點(diǎn)。很簡(jiǎn)單,交互如何實(shí)現(xiàn)完美,很重要的就是建立在“互相理解”的基礎(chǔ)上?;蛘哒f一場(chǎng)對(duì)話如何得以成功進(jìn)行,很重要的一點(diǎn)就是互相理解對(duì)方所說的話的含義。

比如用戶說“我覺得今天天氣不錯(cuò),適合出去游玩”,潛臺(tái)詞就是“我想在這樣美好的日子里出去轉(zhuǎn)轉(zhuǎn),你能給我一點(diǎn)建議嗎?”,但機(jī)器卻錯(cuò)誤理解成“他想在出去玩之前吃點(diǎn)飯”,于是推薦了各種外賣的聯(lián)系方式。如此這樣一次的“交互”就是失敗的,因?yàn)闄C(jī)器沒用理解用戶的意思,也就是我們老話常說的“對(duì)牛彈琴”。

DST(Dialogue State Tracker):對(duì)話狀態(tài)控制 & DM(Dialogue Manager):對(duì)話管理——這兩個(gè)可以放在一起進(jìn)行討論。舉例來說,比如用戶說“給我訂張機(jī)票”,很顯然,這個(gè)對(duì)話所對(duì)應(yīng)的信息是不完整的,因?yàn)闆]有時(shí)間,沒有目的地與出發(fā)地。這個(gè)時(shí)候系統(tǒng)判斷相應(yīng)的指令存在信息缺失,或者說它作出判斷,接下來是不是該我說話了,于是它就會(huì)問:“請(qǐng)問你想從哪里出發(fā)?要去哪里?什么時(shí)候出發(fā)?”。

因此在這兩個(gè)階段,機(jī)器主要進(jìn)行的判斷就是這個(gè)對(duì)話進(jìn)行到哪一步了,該用戶說話還是機(jī)器說話了。因?yàn)槿绻麑?duì)話完整,機(jī)器就可以執(zhí)行相應(yīng)的命令,如果不完整,它就需要再問一次用戶,以將內(nèi)容補(bǔ)完。

Action:命令執(zhí)行——很好理解,為什么它會(huì)單獨(dú)分出一條并與DM形成雙向,也就是我們前面所說的,如果這次命令是完整的,用戶說的是“給我定明早8:00的鬧鐘”,那么系統(tǒng)只需依照指令設(shè)置好鬧鐘,再給出反饋“鬧鐘已設(shè)置好”,那么這么一次的互動(dòng)就算完成了。但如果用戶說的是“給我定鬧鐘”,顯然設(shè)備無法執(zhí)行相關(guān)命令,于是需要生成相應(yīng)的對(duì)話來提示用戶補(bǔ)充完整時(shí)間,之后再執(zhí)行命令。

因此一定程度上也可以理解為Action,是獨(dú)立于“語音交互”過程外的,只有在這么一次交互的信息是完整的時(shí)候,它才會(huì)執(zhí)行命令。

NLG(Natural Language Generation):自然語言生成——這時(shí)候系統(tǒng)經(jīng)過語義的理解+對(duì)話狀態(tài)控制,對(duì)用戶發(fā)出的自然語言已經(jīng)進(jìn)行了解析,知道自己該做出怎樣的回應(yīng)了,此時(shí)就會(huì)生成相對(duì)應(yīng)的自然語言。比如用戶選擇的模式是漢語,那他說的是漢語,機(jī)器同樣也應(yīng)該以漢語的形式進(jìn)行回答。這時(shí)候就是設(shè)備開始給出回應(yīng)的時(shí)候了。

TTS(Text To Speech):從文本到語音——很簡(jiǎn)單來說,就是把“文字”轉(zhuǎn)換成“聲音”,算是ASR技術(shù)的逆推,只是在這一過程中,就很容易反映出其“人性化”的一面,需要設(shè)計(jì)師在其中添加多種豐富的話術(shù),甚至于對(duì)音調(diào)、音色乃至斷句等都有要求,不然就會(huì)顯得“機(jī)械化”,不夠“擬人化”。

比如用戶說“我想吃外賣”,機(jī)器回答“好的,已為你找到附近的十家外賣店,其中沙縣小吃離你最近”;還有一種回答是“好的,這邊已經(jīng)找到距離你最近的一家飯店,是沙縣小吃,網(wǎng)上評(píng)價(jià)還不錯(cuò),據(jù)說那邊的餛飩面很不錯(cuò),建議可以嘗試”。很顯然,最終推薦的都是那家沙縣小吃,但是后者稍顯人性。同樣的,一模一樣的句子,如果用不同的語調(diào)、音色來發(fā)出,給人的感覺同樣不同。

五. 總結(jié)

在這一系列過程中,ASR主要發(fā)生在“識(shí)別前”,這里著重的就是對(duì)用戶發(fā)出聲音的“識(shí)別靈敏度”,因?yàn)橐嚷犌宄?,才有機(jī)會(huì)聽懂。這里所需要攻克的點(diǎn)就是“聲音信號(hào)的識(shí)別與優(yōu)化”。

NLU發(fā)生在“識(shí)別中”,也是在整個(gè)語音交互過程中最難的一部分,因?yàn)樾枰獧C(jī)器去理解人類發(fā)出的語言,而機(jī)器沒有感情,就像用戶說了一句臟話,而不知道其實(shí)用戶是在說臟話。這一環(huán)節(jié)著重于“機(jī)器對(duì)聲音信號(hào)的理解”,機(jī)器人性化與否從這里開始產(chǎn)生改變。

TTS發(fā)生在“識(shí)別后”,也是用戶能真正直觀感受到的方面,因?yàn)樵谶@一階段設(shè)備才算是與用戶形成互動(dòng)。用戶不理解什么機(jī)器語言,他們只想感受到機(jī)器能不能在聽完我說的之后給我我想聽到的回答。有時(shí)候即使機(jī)器沒理解到位,但它反饋出的內(nèi)容卻能令用戶耳目一新,同樣能夠凸顯產(chǎn)品的價(jià)值。這一環(huán)節(jié)需要注意的點(diǎn)是“信息的反饋與播報(bào)”。

打個(gè)比喻,我們把讀書時(shí)候的考試前的準(zhǔn)備過程理解為是“ASR”,我們要去記知識(shí)點(diǎn);考試過程為“NLU”,我們把記到的知識(shí)點(diǎn)實(shí)際應(yīng)用到試卷的問題當(dāng)中去;考試結(jié)果公布的過程即為“TTS”,只要結(jié)果是差的,無論前兩個(gè)過程再努力也很難得到認(rèn)可,反之只要最后反饋的結(jié)果是好的,哪怕之前的工作都不到位,貌似也能讓人稱贊一句。(當(dāng)然,世上沒有不勞而獲的事,前期的準(zhǔn)備才能在最后獲得好的結(jié)果)

因?yàn)橛脩羰墙Y(jié)果導(dǎo)向的,無論我們?cè)趺创祰u自己的產(chǎn)品有多智能,響應(yīng)速度有多快,理解能力有多強(qiáng),什么網(wǎng)絡(luò)神經(jīng)中樞、神經(jīng)網(wǎng)絡(luò)引擎,只要用戶在使用過程中沒感覺到它的智能點(diǎn),一切貌似都白搭。

因此在設(shè)計(jì)一款“語音交互產(chǎn)品”的過程中,每一環(huán)節(jié)都很重要。目前最大的語音交互平臺(tái)是“亞馬遜”,在其平臺(tái)上有超過兩萬個(gè)語音交互類產(chǎn)品,而國內(nèi)卻不超過300個(gè),連其零頭都未觸及?!罢Z音交互產(chǎn)品”潛力巨大,尤其是近年來“物聯(lián)網(wǎng)”的勢(shì)頭正足,5G網(wǎng)絡(luò)宣告展開,我想未來的浪潮中一定會(huì)有“語音交互產(chǎn)品”的一席之地。

 

本文由 @二十一弦 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Pixabay,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 請(qǐng)問徐嘉南老師的視頻是在哪里看的?

    來自浙江 回復(fù)
    1. 起點(diǎn)學(xué)院

      回復(fù)