尷尬的語(yǔ)音:寫(xiě)給想從事語(yǔ)音產(chǎn)品的人

13 評(píng)論 15476 瀏覽 73 收藏 18 分鐘

本篇文章介紹了當(dāng)前語(yǔ)音交互產(chǎn)品的一些尷尬局面,對(duì)于這些“尷尬”,當(dāng)前人們正在探索解決的辦法。

近幾年,自然語(yǔ)言處理技術(shù)的飛速發(fā)展,把語(yǔ)音交互的話題再次引爆。甚至有的公司已經(jīng)開(kāi)始招聘語(yǔ)音產(chǎn)品經(jīng)理和語(yǔ)音交互設(shè)計(jì)師。也有人判斷,未來(lái)這將成為下一波熱門(mén)崗位。

去年雙十一,天貓精靈走進(jìn)了千家萬(wàn)戶。剛開(kāi)始的時(shí)候,大家都對(duì)這些語(yǔ)音交互類(lèi)產(chǎn)品充滿了期待。然而時(shí)隔一年多之后再看,這些產(chǎn)品似乎并沒(méi)有如預(yù)料中的那樣,改變?nèi)藗兊纳睢D切┨熵埦`的用戶們對(duì)產(chǎn)品的評(píng)價(jià)只有兩個(gè)字:很笨。

如今,人工智能的技術(shù)早已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)五年之前了,但是從Siri的出現(xiàn)一直到現(xiàn)在,大家對(duì)語(yǔ)音交互類(lèi)的產(chǎn)品評(píng)價(jià)從來(lái)沒(méi)有變過(guò),那就是:很笨。語(yǔ)音產(chǎn)品似乎總是處于一個(gè)尷尬的位置。

要理解這一點(diǎn),我認(rèn)為僅僅從技術(shù)角度分析是完全不夠的,現(xiàn)在人工智能的技術(shù),解決的只是語(yǔ)音識(shí)別的問(wèn)題。語(yǔ)音識(shí)別的技術(shù)是越來(lái)越強(qiáng)大了,甚至能聽(tīng)懂方言了。但是,“笨”是一個(gè)用戶腦子里面的概念,就算聽(tīng)得懂方言了,語(yǔ)音產(chǎn)品仍然只是一個(gè)能聽(tīng)懂方言的“傻子”。

如果不能從哲學(xué)和認(rèn)知科學(xué)的角度去分析用戶為什么會(huì)認(rèn)為這些產(chǎn)品笨,那么我們對(duì)語(yǔ)音交互的認(rèn)知會(huì)掉進(jìn)一個(gè)死胡同中。

為了說(shuō)明這個(gè)問(wèn)題,我們一步步來(lái),先理解一個(gè)概念:交互的邊界。

一、交互的邊界

當(dāng)我們與機(jī)器進(jìn)行交互時(shí),我們能對(duì)機(jī)器做的事情是限定在一個(gè)有限的范圍之內(nèi)的(也就是說(shuō)指令是一個(gè)有限集合),我把這個(gè)范圍定義為交互的邊界。

傳統(tǒng)的視覺(jué)交互界面,都是有邊界的交互。并且,交互的邊界需盡量明確。交互設(shè)計(jì)有一條很重要的原則,叫做可視化原則,就是指需要把用戶能夠進(jìn)行的操作都讓用戶看到。把交互的邊界展示給用戶,不要讓用戶去尋找邊界。

視覺(jué)界面的交互下,用戶所有的操作,都是設(shè)計(jì)者預(yù)先設(shè)計(jì)好的。用戶做的只是“選擇題”,并且用戶也知道,只能做“選擇題”。

語(yǔ)音交互對(duì)于計(jì)算機(jī)來(lái)說(shuō),只是信息的程現(xiàn)方式不同,其邊界的性質(zhì)并沒(méi)有發(fā)生變化。于是就有了最原始的、沒(méi)有火起來(lái)的語(yǔ)音交互形式,選擇題的形式:“個(gè)人服務(wù)請(qǐng)按1,公司服務(wù)請(qǐng)按2,人工咨詢請(qǐng)按0”。這種語(yǔ)音交互是邊界清晰,運(yùn)作良好的,也從來(lái)沒(méi)有用戶會(huì)用“笨”來(lái)形容它們。

然而,語(yǔ)音交互就老老實(shí)實(shí)像視覺(jué)交互一樣做選擇題不好嗎?為什么視覺(jué)交互人們從來(lái)不提到人工智能,而語(yǔ)音交互,人們總是把它和人工智能搞混在一起?

我們來(lái)看第二個(gè)概念:信息的維度。

二、信息的維度

聽(tīng)覺(jué)信息和視覺(jué)信息,在物理屬性上面是完全不同的。

視覺(jué)信息,是空間二維的信息,且在時(shí)間這個(gè)維度上是可以持續(xù)的。

聽(tīng)覺(jué)信息,是空間零維的信息,其存在僅僅只能在時(shí)間這個(gè)維度上閃現(xiàn)。

于是,在呈現(xiàn)交互的邊界時(shí)(也就是提供“選擇題”的選項(xiàng)時(shí)),視覺(jué)界面可以在時(shí)間空間中呈現(xiàn)任意復(fù)雜的界面,完成復(fù)雜高效的操作;而語(yǔ)音界面,其選項(xiàng)在被呈現(xiàn)的同時(shí)也在消逝,必須依靠人的短時(shí)記憶把選項(xiàng)存儲(chǔ)下來(lái)。

而人的短時(shí)記憶容量非常有限的,只能存儲(chǔ)7個(gè)簡(jiǎn)單的信息模塊。于是,傳統(tǒng)語(yǔ)音界面的復(fù)雜程度,被限制在了人短時(shí)記憶容量的范圍之內(nèi)。這么小的信息量,注定了這種有邊界的語(yǔ)音地位尷尬,只能“小打小鬧”。不太可能成為一種重要的交互方式。

三、人與現(xiàn)實(shí)世界的交互

在反觀我們現(xiàn)實(shí)世界,我們基于視覺(jué)信息所做的事情,都是類(lèi)似于“選擇題”,比如看到一個(gè)按鈕按下,看到一雙筷子拿起。只有當(dāng)空間中存在這個(gè)“選項(xiàng)”時(shí),我們才能操作。

也就是說(shuō),我們基于視覺(jué)信息與現(xiàn)實(shí)世界進(jìn)行的交互,依然類(lèi)似于有邊界的“選擇題”。

然而,人與人進(jìn)行語(yǔ)音交互的時(shí)候,卻不是在做選擇題,而是模糊邊界的(我們可以理解為沒(méi)有邊界)。你說(shuō)話的內(nèi)容,并不需要在對(duì)方提供的選項(xiàng)之中,你發(fā)出的信息可以是創(chuàng)造性的。

正是因?yàn)槿伺c人之間的語(yǔ)音交互是邊界模糊的,才使得語(yǔ)音溝通的信息量突破人類(lèi)短時(shí)記憶的限制,成為人與人溝通最重要的方式。

所以,人機(jī)語(yǔ)音交互想要成為一種重要的交互方式,必然需要突破傳統(tǒng)“選擇題”的方式,成為一種沒(méi)有邊界的交互。也就是說(shuō),用戶可以隨意發(fā)出符合場(chǎng)景的指令,而不能讓機(jī)器告訴用戶它聽(tīng)得懂什么。

四、語(yǔ)音與人工智能

然而,當(dāng)你不知道機(jī)器能聽(tīng)懂什么的時(shí)候,你只能假象對(duì)方像一個(gè)人樣,什么都能聽(tīng)得懂。于是,語(yǔ)音交互一旦突破了傳統(tǒng)的邊界,就會(huì)一發(fā)不可收拾地朝著的方向發(fā)展。

當(dāng)你聽(tīng)到電話語(yǔ)音給你選項(xiàng)邊界的時(shí)候,你不會(huì)假想對(duì)方是人;但是對(duì)于Siri這種沒(méi)有提供邊界的交互,你很自然的就把對(duì)方假象成為一個(gè)有智能、有情感的生物。

很多人喜歡調(diào)戲Siri,正是因?yàn)槟阋呀?jīng)把他假象成了一個(gè)人,而當(dāng)它遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到一個(gè)正常人應(yīng)該具備的決策和判斷能力時(shí),你就會(huì)形容它很笨。

語(yǔ)音交互在剛剛開(kāi)始的時(shí)候,他對(duì)標(biāo)的對(duì)象就已經(jīng)是真實(shí)的人。只存在“像人”“不像人”兩種狀態(tài),而不像視覺(jué)界面,人們或許還愿意去學(xué)習(xí)它的交互。

為了說(shuō)明視覺(jué)交互和語(yǔ)音交互的這點(diǎn)不同,需要舉一個(gè)例子:一個(gè)農(nóng)村老太太,當(dāng)她使用一個(gè)視覺(jué)界面產(chǎn)品的時(shí)候,如果她不知道該怎么操作,她可能會(huì)責(zé)怪自己笨;但是如果是一個(gè)語(yǔ)音交互產(chǎn)品,她無(wú)法與其進(jìn)行正常交互的時(shí)候,老太太一定會(huì)認(rèn)為是語(yǔ)音交互產(chǎn)品很笨。這就是語(yǔ)音交互的尷尬。

真正的語(yǔ)音交互要想發(fā)揮其價(jià)值,其最終的效果,就是像人與人語(yǔ)言交流一樣的邏輯進(jìn)行交流。所以語(yǔ)音交互的發(fā)展總是期待人工智能技術(shù)的突破。

然而,現(xiàn)在人工智的水平到底如何?是否真如大家所說(shuō)的奇點(diǎn)臨近。這點(diǎn)誰(shuí)也沒(méi)有辦法判斷,但是,從認(rèn)知科學(xué)的角度,我能為你提供一些思路。

五、當(dāng)前人工智能的發(fā)展階段

近年來(lái),深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展確實(shí)非??植?。理解神經(jīng)網(wǎng)絡(luò)算法的人應(yīng)該都懂,神經(jīng)網(wǎng)絡(luò)算法的底層邏輯已經(jīng)不同于傳統(tǒng)機(jī)器邏輯判斷的算法,而是類(lèi)似于人類(lèi)神經(jīng)系統(tǒng)激活的方式工作。這是大家認(rèn)為機(jī)器可能會(huì)超過(guò)人類(lèi)的重要原因。

然而,從認(rèn)知科學(xué)的角度來(lái)說(shuō),現(xiàn)在的人工智能依然非常初級(jí)。人的認(rèn)知分為:感覺(jué),知覺(jué),注意,記憶,表象,思維,想象,等等。而感覺(jué)知覺(jué),是人類(lèi)最低級(jí)別的認(rèn)知,也是被研究的最多的認(rèn)知現(xiàn)象。而表象、思維、想象等認(rèn)知現(xiàn)象,現(xiàn)在科學(xué)研究得還不多,這也是人類(lèi)認(rèn)知最為神秘的地方,這也正是很多宗教或者迷信認(rèn)為人類(lèi)存在靈魂的原因。

而我們?cè)賮?lái)看看現(xiàn)在人工智能的前沿領(lǐng)域:圖像識(shí)別,自然語(yǔ)言處理,等等,從認(rèn)知科學(xué)的角度來(lái)說(shuō),都相當(dāng)于人類(lèi)感覺(jué)知覺(jué)階段。遠(yuǎn)遠(yuǎn)沒(méi)有到達(dá)表象,思維,想象。

但是近年來(lái),AlphaGo在圍棋領(lǐng)域的表現(xiàn)讓有些人開(kāi)始懷疑,也許人類(lèi)更高級(jí)的思維能力的機(jī)制和感知覺(jué)機(jī)制是一樣的。到底人工智能能否突破認(rèn)知領(lǐng)域的研究,超越人類(lèi),或者也許人工智能的發(fā)展會(huì)像一座巴別塔,永遠(yuǎn)也無(wú)法到達(dá)目標(biāo),我們不做討論。

此路我們看不到明確終點(diǎn),也許可以換一個(gè)思路。語(yǔ)音交互并不一定要依賴通用人工智能達(dá)到人類(lèi)意識(shí)的水平,而是可以通過(guò)對(duì)人類(lèi)認(rèn)知邏輯的直接模擬,來(lái)實(shí)現(xiàn)像人與人溝通一樣的體驗(yàn)。雖說(shuō)人與人之間的交流是沒(méi)有明確邊界的交互,但是仍是有規(guī)律可循的。

最典型、最重要的一個(gè)特點(diǎn),就是無(wú)意識(shí)推理:人與人溝通過(guò)程中,總是在不斷地進(jìn)行無(wú)意識(shí)推理,并且也假象對(duì)方能進(jìn)行無(wú)意識(shí)推理。

絕大多數(shù)情況下,用戶認(rèn)為語(yǔ)音產(chǎn)品笨,就是因?yàn)檎Z(yǔ)音產(chǎn)品缺少無(wú)意識(shí)推理這個(gè)認(rèn)知邏輯。

六、無(wú)意識(shí)推理

一篇文章不可能道盡所有的無(wú)意識(shí)推理,只講幾個(gè)點(diǎn),拋磚引玉。

1. 環(huán)境背景推理

我們常用的智能音箱和智能車(chē)載,都有一個(gè)激活指令。你在家里,哪怕只有一個(gè)人的時(shí)候,你也需要呼叫:“天貓精靈”,它才能夠激活。這種在連續(xù)對(duì)話中顯得尤其不方便。當(dāng)我中間停了一會(huì),再和它說(shuō)話的時(shí)候,說(shuō)完我才發(fā)現(xiàn)我白說(shuō)了,又得重新呼叫名字激活。這是一種非常反人類(lèi)的交互。

正常人與人語(yǔ)音交流時(shí),并不是通過(guò)這種激活的邏輯,而是過(guò)濾的邏輯。人的聽(tīng)覺(jué)系統(tǒng)是隨時(shí)在線的,我聽(tīng)到一句話,如果潛意識(shí)里我知道屋里就我們兩個(gè)人,我就會(huì)立馬處理這條信息,做出響應(yīng)。

如上圖所示,人與人交互的邏輯與語(yǔ)音產(chǎn)品交互的邏輯是不同的。人與人的交互是隨時(shí)在線,然后過(guò)濾信息的;然而現(xiàn)在的語(yǔ)音產(chǎn)品,雖然技術(shù)本質(zhì)上也是隨時(shí)在線的,但是對(duì)用戶來(lái)說(shuō),卻多了一個(gè)激活的過(guò)程,相當(dāng)于手動(dòng)按下開(kāi)關(guān)。

如果屋里有多個(gè)人會(huì)怎么樣?我會(huì)先等一會(huì),發(fā)現(xiàn)沒(méi)有人回應(yīng)時(shí),我就會(huì)確認(rèn):“是在和我說(shuō)話嗎?”然后繼續(xù)這次對(duì)話。

以此類(lèi)推,人每時(shí)每刻在利用環(huán)境信息進(jìn)行無(wú)意識(shí)的推理的,模擬這一點(diǎn),我們?cè)谧稣Z(yǔ)音產(chǎn)品的時(shí)候,我們可以考慮把多個(gè)維度的環(huán)境信息的數(shù)據(jù)結(jié)構(gòu)化,存儲(chǔ)在一個(gè)緩存中,將用戶發(fā)出指令與環(huán)境信息進(jìn)行邏輯運(yùn)算之后,再做出響應(yīng)。

比如車(chē)載就特別容易做到這一點(diǎn),通過(guò)座位的傳感信息,很容知道車(chē)上有幾個(gè)人。

2. 多通道(多模態(tài))信息推理

一群熟人坐在一起的時(shí)候,沒(méi)有誰(shuí)說(shuō)話之前總是要叫對(duì)方名字的。我看你一眼再說(shuō)話,就表示我在對(duì)你說(shuō)。人的表情,動(dòng)作等視覺(jué)信息,在語(yǔ)音溝通中也是非常重要的。

單純的語(yǔ)言信息存在很多缺陷,于是人類(lèi)在語(yǔ)言信息溝通的過(guò)程中,也需要借住視覺(jué)或其他通道收集到的信息來(lái)輔助理解判斷,否則語(yǔ)言交流的難度會(huì)大很多。

在高級(jí)的語(yǔ)言溝通中,這些信息非常復(fù)雜,但是對(duì)于對(duì)于不太復(fù)雜的語(yǔ)音產(chǎn)品,最重要的就是”目光指向”。別看這只是一個(gè)簡(jiǎn)單的邏輯,但是在人較多的環(huán)境下,能起到非常大的作用。

天貓精靈有個(gè)烏龍事件,當(dāng)你把他音量調(diào)到最大播放熱鬧的音樂(lè)的時(shí)候,它就聽(tīng)不到你任何指令了。但是在嘈雜的環(huán)境中,人與人是怎么溝通的呢?我會(huì)看著你說(shuō)一句話,然后你會(huì)表現(xiàn)出聽(tīng)不清的表情,然后把我拉到一個(gè)安靜的地方溝通。

所有如果語(yǔ)音產(chǎn)品能夠利用視覺(jué)通道的信息,對(duì)于語(yǔ)音交互的流暢度也是非常有幫助的。比如說(shuō),在大聲播放音樂(lè)的環(huán)境中,當(dāng)天貓精靈“看到”了我轉(zhuǎn)向它說(shuō)話的時(shí)候,他應(yīng)該自動(dòng)將音量臨時(shí)調(diào)小聽(tīng)我再說(shuō)一遍。

再比如,如果你家里同一個(gè)房間有多個(gè)燈。如果你想通過(guò)智能音響關(guān)燈的話,你必須要給每個(gè)燈取一個(gè)名字,這種交互非常不自然,而且還容易忘記。但是如果能利用視覺(jué)通道的信息進(jìn)行輔助判斷,那么你只要用手指著這個(gè)燈說(shuō):“關(guān)這個(gè)燈”。

3. 上下文指代信息推理

人與人溝通過(guò)程中,上下文也是非常重要的。上下文信息最重要的作用在于代詞的指代。要做到自然語(yǔ)言交互,指代信息必不可少。

linda說(shuō):“最近有哪里好玩嗎?”

Alice說(shuō):“附近開(kāi)了一個(gè)游樂(lè)場(chǎng)不錯(cuò)?!?/p>

Linda說(shuō):“我們就去那里吧?!?/p>

最后一句話的“那里”,是指代的“游樂(lè)場(chǎng)”。這種使用代詞的交互方式在人與人交互的過(guò)程中是非常常見(jiàn)且重要的。人與人交互的過(guò)程中,會(huì)在短時(shí)記憶里存儲(chǔ)最近談話中涉及到的對(duì)象。當(dāng)對(duì)話中遇到代詞時(shí),會(huì)無(wú)意識(shí)地從短時(shí)記憶中提取對(duì)象代入語(yǔ)句,從而理解。

天貓精靈目前好像還完全不支持指代關(guān)系,顯得非常笨。而最近幾個(gè)版本的siri開(kāi)始可以支持指代關(guān)系(以前的也不行)。比如說(shuō)當(dāng)你用Siri搜索過(guò)一個(gè)地點(diǎn)之后,你說(shuō):“去那里”。它會(huì)知道你是要去最近搜索的地點(diǎn)。說(shuō)明他把最近搜索的對(duì)象存存起來(lái)了。使得上下文聯(lián)系起來(lái),而不是獨(dú)立存在。

但是實(shí)際溝通過(guò)程中的指代關(guān)系遠(yuǎn)比這復(fù)雜。尤其是當(dāng)人物、地點(diǎn)、事物等指代關(guān)系同時(shí)出現(xiàn)的時(shí)候。還需要更加深入理解人的認(rèn)知模型,才讓機(jī)器實(shí)現(xiàn)與人更流暢的交互。

總結(jié)

語(yǔ)音產(chǎn)品雖然已經(jīng)有很長(zhǎng)的發(fā)展歷史了,但是今天的語(yǔ)音產(chǎn)品仍然像是一個(gè)新的領(lǐng)域。并且,當(dāng)今的語(yǔ)音產(chǎn)品地位也比較尷尬,一方面,語(yǔ)音識(shí)別技術(shù)快速發(fā)展,機(jī)器的語(yǔ)音識(shí)別能力已經(jīng)超過(guò)人類(lèi),但是另一方面,更高層次的語(yǔ)言認(rèn)知模型并沒(méi)有被計(jì)算機(jī)科學(xué)家考慮在內(nèi),使得語(yǔ)音產(chǎn)品實(shí)際使用起來(lái)的時(shí)候,總是顯得很笨。

想要優(yōu)化語(yǔ)音交互的體驗(yàn),腳踏實(shí)地地讓語(yǔ)音交互發(fā)揮更大的價(jià)值,釋放語(yǔ)音交互的生產(chǎn)力,需要更深入的從認(rèn)知科學(xué)的角度,理解人類(lèi)對(duì)語(yǔ)言的認(rèn)知模型,做到人與語(yǔ)音產(chǎn)品的自然交互。

 

本文由 @ArvinNing 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 想法不錯(cuò),可是如果語(yǔ)音助手真做到了理解各種指代關(guān)系,怕是毫無(wú)隱私可言了。

    回復(fù)
  2. 頂力力??!

    來(lái)自江蘇 回復(fù)
  3. 語(yǔ)音隨時(shí)在線,自動(dòng)判斷環(huán)境,那我們?nèi)伺c人之間的對(duì)話是否要被監(jiān)聽(tīng)

    來(lái)自浙江 回復(fù)
  4. 寫(xiě)的很贊,可否聯(lián)系到您?

    回復(fù)
    1. 可以加你微信

      回復(fù)
    2. ?微信17717832406?,謝謝,等待您的聯(lián)系

      回復(fù)
  5. 好多場(chǎng)景總結(jié)的很好,你在語(yǔ)音交互相關(guān)行業(yè)嗎?

    回復(fù)
    1. 我學(xué)的認(rèn)知科學(xué),以前研究生做過(guò)這方面研究

      回復(fù)
  6. 真的好文

    來(lái)自江蘇 回復(fù)
  7. 此文真贊,頗受啟發(fā)

    來(lái)自江蘇 回復(fù)
  8. 好文

    來(lái)自浙江 回復(fù)
  9. 好文

    來(lái)自廣東 回復(fù)
  10. 文章不錯(cuò)~ 就是口令喚醒那一點(diǎn)有點(diǎn)別的想法,如果不通過(guò)口令喚醒,而且機(jī)器自動(dòng)判斷環(huán)境,一個(gè)是判斷準(zhǔn)確性比較難保證,一個(gè)是機(jī)器畢竟不等同于人,沒(méi)有一個(gè)具體的形象、表情、動(dòng)作等其他輔助,冷不丁開(kāi)口接個(gè)話,其實(shí)想想還蠻可怕的。所以語(yǔ)音喚醒其實(shí)是給用戶一個(gè)確定性,一個(gè)啟動(dòng)動(dòng)作。

    來(lái)自廣東 回復(fù)