尷尬的語(yǔ)音:寫(xiě)給想從事語(yǔ)音產(chǎn)品的人
本篇文章介紹了當(dāng)前語(yǔ)音交互產(chǎn)品的一些尷尬局面,對(duì)于這些“尷尬”,當(dāng)前人們正在探索解決的辦法。
近幾年,自然語(yǔ)言處理技術(shù)的飛速發(fā)展,把語(yǔ)音交互的話題再次引爆。甚至有的公司已經(jīng)開(kāi)始招聘語(yǔ)音產(chǎn)品經(jīng)理和語(yǔ)音交互設(shè)計(jì)師。也有人判斷,未來(lái)這將成為下一波熱門(mén)崗位。
去年雙十一,天貓精靈走進(jìn)了千家萬(wàn)戶。剛開(kāi)始的時(shí)候,大家都對(duì)這些語(yǔ)音交互類(lèi)產(chǎn)品充滿了期待。然而時(shí)隔一年多之后再看,這些產(chǎn)品似乎并沒(méi)有如預(yù)料中的那樣,改變?nèi)藗兊纳睢D切┨熵埦`的用戶們對(duì)產(chǎn)品的評(píng)價(jià)只有兩個(gè)字:很笨。
如今,人工智能的技術(shù)早已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)五年之前了,但是從Siri的出現(xiàn)一直到現(xiàn)在,大家對(duì)語(yǔ)音交互類(lèi)的產(chǎn)品評(píng)價(jià)從來(lái)沒(méi)有變過(guò),那就是:很笨。語(yǔ)音產(chǎn)品似乎總是處于一個(gè)尷尬的位置。
要理解這一點(diǎn),我認(rèn)為僅僅從技術(shù)角度分析是完全不夠的,現(xiàn)在人工智能的技術(shù),解決的只是語(yǔ)音識(shí)別的問(wèn)題。語(yǔ)音識(shí)別的技術(shù)是越來(lái)越強(qiáng)大了,甚至能聽(tīng)懂方言了。但是,“笨”是一個(gè)用戶腦子里面的概念,就算聽(tīng)得懂方言了,語(yǔ)音產(chǎn)品仍然只是一個(gè)能聽(tīng)懂方言的“傻子”。
如果不能從哲學(xué)和認(rèn)知科學(xué)的角度去分析用戶為什么會(huì)認(rèn)為這些產(chǎn)品笨,那么我們對(duì)語(yǔ)音交互的認(rèn)知會(huì)掉進(jìn)一個(gè)死胡同中。
為了說(shuō)明這個(gè)問(wèn)題,我們一步步來(lái),先理解一個(gè)概念:交互的邊界。
一、交互的邊界
當(dāng)我們與機(jī)器進(jìn)行交互時(shí),我們能對(duì)機(jī)器做的事情是限定在一個(gè)有限的范圍之內(nèi)的(也就是說(shuō)指令是一個(gè)有限集合),我把這個(gè)范圍定義為交互的邊界。
傳統(tǒng)的視覺(jué)交互界面,都是有邊界的交互。并且,交互的邊界需盡量明確。交互設(shè)計(jì)有一條很重要的原則,叫做可視化原則,就是指需要把用戶能夠進(jìn)行的操作都讓用戶看到。把交互的邊界展示給用戶,不要讓用戶去尋找邊界。
視覺(jué)界面的交互下,用戶所有的操作,都是設(shè)計(jì)者預(yù)先設(shè)計(jì)好的。用戶做的只是“選擇題”,并且用戶也知道,只能做“選擇題”。
語(yǔ)音交互對(duì)于計(jì)算機(jī)來(lái)說(shuō),只是信息的程現(xiàn)方式不同,其邊界的性質(zhì)并沒(méi)有發(fā)生變化。于是就有了最原始的、沒(méi)有火起來(lái)的語(yǔ)音交互形式,選擇題的形式:“個(gè)人服務(wù)請(qǐng)按1,公司服務(wù)請(qǐng)按2,人工咨詢請(qǐng)按0”。這種語(yǔ)音交互是邊界清晰,運(yùn)作良好的,也從來(lái)沒(méi)有用戶會(huì)用“笨”來(lái)形容它們。
然而,語(yǔ)音交互就老老實(shí)實(shí)像視覺(jué)交互一樣做選擇題不好嗎?為什么視覺(jué)交互人們從來(lái)不提到人工智能,而語(yǔ)音交互,人們總是把它和人工智能搞混在一起?
我們來(lái)看第二個(gè)概念:信息的維度。
二、信息的維度
聽(tīng)覺(jué)信息和視覺(jué)信息,在物理屬性上面是完全不同的。
視覺(jué)信息,是空間二維的信息,且在時(shí)間這個(gè)維度上是可以持續(xù)的。
聽(tīng)覺(jué)信息,是空間零維的信息,其存在僅僅只能在時(shí)間這個(gè)維度上閃現(xiàn)。
于是,在呈現(xiàn)交互的邊界時(shí)(也就是提供“選擇題”的選項(xiàng)時(shí)),視覺(jué)界面可以在時(shí)間空間中呈現(xiàn)任意復(fù)雜的界面,完成復(fù)雜高效的操作;而語(yǔ)音界面,其選項(xiàng)在被呈現(xiàn)的同時(shí)也在消逝,必須依靠人的短時(shí)記憶把選項(xiàng)存儲(chǔ)下來(lái)。
而人的短時(shí)記憶容量非常有限的,只能存儲(chǔ)7個(gè)簡(jiǎn)單的信息模塊。于是,傳統(tǒng)語(yǔ)音界面的復(fù)雜程度,被限制在了人短時(shí)記憶容量的范圍之內(nèi)。這么小的信息量,注定了這種有邊界的語(yǔ)音地位尷尬,只能“小打小鬧”。不太可能成為一種重要的交互方式。
三、人與現(xiàn)實(shí)世界的交互
在反觀我們現(xiàn)實(shí)世界,我們基于視覺(jué)信息所做的事情,都是類(lèi)似于“選擇題”,比如看到一個(gè)按鈕按下,看到一雙筷子拿起。只有當(dāng)空間中存在這個(gè)“選項(xiàng)”時(shí),我們才能操作。
也就是說(shuō),我們基于視覺(jué)信息與現(xiàn)實(shí)世界進(jìn)行的交互,依然類(lèi)似于有邊界的“選擇題”。
然而,人與人進(jìn)行語(yǔ)音交互的時(shí)候,卻不是在做選擇題,而是模糊邊界的(我們可以理解為沒(méi)有邊界)。你說(shuō)話的內(nèi)容,并不需要在對(duì)方提供的選項(xiàng)之中,你發(fā)出的信息可以是創(chuàng)造性的。
正是因?yàn)槿伺c人之間的語(yǔ)音交互是邊界模糊的,才使得語(yǔ)音溝通的信息量突破人類(lèi)短時(shí)記憶的限制,成為人與人溝通最重要的方式。
所以,人機(jī)語(yǔ)音交互想要成為一種重要的交互方式,必然需要突破傳統(tǒng)“選擇題”的方式,成為一種沒(méi)有邊界的交互。也就是說(shuō),用戶可以隨意發(fā)出符合場(chǎng)景的指令,而不能讓機(jī)器告訴用戶它聽(tīng)得懂什么。
四、語(yǔ)音與人工智能
然而,當(dāng)你不知道機(jī)器能聽(tīng)懂什么的時(shí)候,你只能假象對(duì)方像一個(gè)人樣,什么都能聽(tīng)得懂。于是,語(yǔ)音交互一旦突破了傳統(tǒng)的邊界,就會(huì)一發(fā)不可收拾地朝著的方向發(fā)展。
當(dāng)你聽(tīng)到電話語(yǔ)音給你選項(xiàng)邊界的時(shí)候,你不會(huì)假想對(duì)方是人;但是對(duì)于Siri這種沒(méi)有提供邊界的交互,你很自然的就把對(duì)方假象成為一個(gè)有智能、有情感的生物。
很多人喜歡調(diào)戲Siri,正是因?yàn)槟阋呀?jīng)把他假象成了一個(gè)人,而當(dāng)它遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到一個(gè)正常人應(yīng)該具備的決策和判斷能力時(shí),你就會(huì)形容它很笨。
語(yǔ)音交互在剛剛開(kāi)始的時(shí)候,他對(duì)標(biāo)的對(duì)象就已經(jīng)是真實(shí)的人。只存在“像人”“不像人”兩種狀態(tài),而不像視覺(jué)界面,人們或許還愿意去學(xué)習(xí)它的交互。
為了說(shuō)明視覺(jué)交互和語(yǔ)音交互的這點(diǎn)不同,需要舉一個(gè)例子:一個(gè)農(nóng)村老太太,當(dāng)她使用一個(gè)視覺(jué)界面產(chǎn)品的時(shí)候,如果她不知道該怎么操作,她可能會(huì)責(zé)怪自己笨;但是如果是一個(gè)語(yǔ)音交互產(chǎn)品,她無(wú)法與其進(jìn)行正常交互的時(shí)候,老太太一定會(huì)認(rèn)為是語(yǔ)音交互產(chǎn)品很笨。這就是語(yǔ)音交互的尷尬。
真正的語(yǔ)音交互要想發(fā)揮其價(jià)值,其最終的效果,就是像人與人語(yǔ)言交流一樣的邏輯進(jìn)行交流。所以語(yǔ)音交互的發(fā)展總是期待人工智能技術(shù)的突破。
然而,現(xiàn)在人工智的水平到底如何?是否真如大家所說(shuō)的奇點(diǎn)臨近。這點(diǎn)誰(shuí)也沒(méi)有辦法判斷,但是,從認(rèn)知科學(xué)的角度,我能為你提供一些思路。
五、當(dāng)前人工智能的發(fā)展階段
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展確實(shí)非??植?。理解神經(jīng)網(wǎng)絡(luò)算法的人應(yīng)該都懂,神經(jīng)網(wǎng)絡(luò)算法的底層邏輯已經(jīng)不同于傳統(tǒng)機(jī)器邏輯判斷的算法,而是類(lèi)似于人類(lèi)神經(jīng)系統(tǒng)激活的方式工作。這是大家認(rèn)為機(jī)器可能會(huì)超過(guò)人類(lèi)的重要原因。
然而,從認(rèn)知科學(xué)的角度來(lái)說(shuō),現(xiàn)在的人工智能依然非常初級(jí)。人的認(rèn)知分為:感覺(jué),知覺(jué),注意,記憶,表象,思維,想象,等等。而感覺(jué)知覺(jué),是人類(lèi)最低級(jí)別的認(rèn)知,也是被研究的最多的認(rèn)知現(xiàn)象。而表象、思維、想象等認(rèn)知現(xiàn)象,現(xiàn)在科學(xué)研究得還不多,這也是人類(lèi)認(rèn)知最為神秘的地方,這也正是很多宗教或者迷信認(rèn)為人類(lèi)存在靈魂的原因。
而我們?cè)賮?lái)看看現(xiàn)在人工智能的前沿領(lǐng)域:圖像識(shí)別,自然語(yǔ)言處理,等等,從認(rèn)知科學(xué)的角度來(lái)說(shuō),都相當(dāng)于人類(lèi)感覺(jué)知覺(jué)階段。遠(yuǎn)遠(yuǎn)沒(méi)有到達(dá)表象,思維,想象。
但是近年來(lái),AlphaGo在圍棋領(lǐng)域的表現(xiàn)讓有些人開(kāi)始懷疑,也許人類(lèi)更高級(jí)的思維能力的機(jī)制和感知覺(jué)機(jī)制是一樣的。到底人工智能能否突破認(rèn)知領(lǐng)域的研究,超越人類(lèi),或者也許人工智能的發(fā)展會(huì)像一座巴別塔,永遠(yuǎn)也無(wú)法到達(dá)目標(biāo),我們不做討論。
此路我們看不到明確終點(diǎn),也許可以換一個(gè)思路。語(yǔ)音交互并不一定要依賴通用人工智能達(dá)到人類(lèi)意識(shí)的水平,而是可以通過(guò)對(duì)人類(lèi)認(rèn)知邏輯的直接模擬,來(lái)實(shí)現(xiàn)像人與人溝通一樣的體驗(yàn)。雖說(shuō)人與人之間的交流是沒(méi)有明確邊界的交互,但是仍是有規(guī)律可循的。
最典型、最重要的一個(gè)特點(diǎn),就是無(wú)意識(shí)推理:人與人溝通過(guò)程中,總是在不斷地進(jìn)行無(wú)意識(shí)推理,并且也假象對(duì)方能進(jìn)行無(wú)意識(shí)推理。
絕大多數(shù)情況下,用戶認(rèn)為語(yǔ)音產(chǎn)品笨,就是因?yàn)檎Z(yǔ)音產(chǎn)品缺少無(wú)意識(shí)推理這個(gè)認(rèn)知邏輯。
六、無(wú)意識(shí)推理
一篇文章不可能道盡所有的無(wú)意識(shí)推理,只講幾個(gè)點(diǎn),拋磚引玉。
1. 環(huán)境背景推理
我們常用的智能音箱和智能車(chē)載,都有一個(gè)激活指令。你在家里,哪怕只有一個(gè)人的時(shí)候,你也需要呼叫:“天貓精靈”,它才能夠激活。這種在連續(xù)對(duì)話中顯得尤其不方便。當(dāng)我中間停了一會(huì),再和它說(shuō)話的時(shí)候,說(shuō)完我才發(fā)現(xiàn)我白說(shuō)了,又得重新呼叫名字激活。這是一種非常反人類(lèi)的交互。
正常人與人語(yǔ)音交流時(shí),并不是通過(guò)這種激活的邏輯,而是過(guò)濾的邏輯。人的聽(tīng)覺(jué)系統(tǒng)是隨時(shí)在線的,我聽(tīng)到一句話,如果潛意識(shí)里我知道屋里就我們兩個(gè)人,我就會(huì)立馬處理這條信息,做出響應(yīng)。
如上圖所示,人與人交互的邏輯與語(yǔ)音產(chǎn)品交互的邏輯是不同的。人與人的交互是隨時(shí)在線,然后過(guò)濾信息的;然而現(xiàn)在的語(yǔ)音產(chǎn)品,雖然技術(shù)本質(zhì)上也是隨時(shí)在線的,但是對(duì)用戶來(lái)說(shuō),卻多了一個(gè)激活的過(guò)程,相當(dāng)于手動(dòng)按下開(kāi)關(guān)。
如果屋里有多個(gè)人會(huì)怎么樣?我會(huì)先等一會(huì),發(fā)現(xiàn)沒(méi)有人回應(yīng)時(shí),我就會(huì)確認(rèn):“是在和我說(shuō)話嗎?”然后繼續(xù)這次對(duì)話。
以此類(lèi)推,人每時(shí)每刻在利用環(huán)境信息進(jìn)行無(wú)意識(shí)的推理的,模擬這一點(diǎn),我們?cè)谧稣Z(yǔ)音產(chǎn)品的時(shí)候,我們可以考慮把多個(gè)維度的環(huán)境信息的數(shù)據(jù)結(jié)構(gòu)化,存儲(chǔ)在一個(gè)緩存中,將用戶發(fā)出指令與環(huán)境信息進(jìn)行邏輯運(yùn)算之后,再做出響應(yīng)。
比如車(chē)載就特別容易做到這一點(diǎn),通過(guò)座位的傳感信息,很容知道車(chē)上有幾個(gè)人。
2. 多通道(多模態(tài))信息推理
一群熟人坐在一起的時(shí)候,沒(méi)有誰(shuí)說(shuō)話之前總是要叫對(duì)方名字的。我看你一眼再說(shuō)話,就表示我在對(duì)你說(shuō)。人的表情,動(dòng)作等視覺(jué)信息,在語(yǔ)音溝通中也是非常重要的。
單純的語(yǔ)言信息存在很多缺陷,于是人類(lèi)在語(yǔ)言信息溝通的過(guò)程中,也需要借住視覺(jué)或其他通道收集到的信息來(lái)輔助理解判斷,否則語(yǔ)言交流的難度會(huì)大很多。
在高級(jí)的語(yǔ)言溝通中,這些信息非常復(fù)雜,但是對(duì)于對(duì)于不太復(fù)雜的語(yǔ)音產(chǎn)品,最重要的就是”目光指向”。別看這只是一個(gè)簡(jiǎn)單的邏輯,但是在人較多的環(huán)境下,能起到非常大的作用。
天貓精靈有個(gè)烏龍事件,當(dāng)你把他音量調(diào)到最大播放熱鬧的音樂(lè)的時(shí)候,它就聽(tīng)不到你任何指令了。但是在嘈雜的環(huán)境中,人與人是怎么溝通的呢?我會(huì)看著你說(shuō)一句話,然后你會(huì)表現(xiàn)出聽(tīng)不清的表情,然后把我拉到一個(gè)安靜的地方溝通。
所有如果語(yǔ)音產(chǎn)品能夠利用視覺(jué)通道的信息,對(duì)于語(yǔ)音交互的流暢度也是非常有幫助的。比如說(shuō),在大聲播放音樂(lè)的環(huán)境中,當(dāng)天貓精靈“看到”了我轉(zhuǎn)向它說(shuō)話的時(shí)候,他應(yīng)該自動(dòng)將音量臨時(shí)調(diào)小聽(tīng)我再說(shuō)一遍。
再比如,如果你家里同一個(gè)房間有多個(gè)燈。如果你想通過(guò)智能音響關(guān)燈的話,你必須要給每個(gè)燈取一個(gè)名字,這種交互非常不自然,而且還容易忘記。但是如果能利用視覺(jué)通道的信息進(jìn)行輔助判斷,那么你只要用手指著這個(gè)燈說(shuō):“關(guān)這個(gè)燈”。
3. 上下文指代信息推理
人與人溝通過(guò)程中,上下文也是非常重要的。上下文信息最重要的作用在于代詞的指代。要做到自然語(yǔ)言交互,指代信息必不可少。
linda說(shuō):“最近有哪里好玩嗎?”
Alice說(shuō):“附近開(kāi)了一個(gè)游樂(lè)場(chǎng)不錯(cuò)?!?/p>
Linda說(shuō):“我們就去那里吧?!?/p>
最后一句話的“那里”,是指代的“游樂(lè)場(chǎng)”。這種使用代詞的交互方式在人與人交互的過(guò)程中是非常常見(jiàn)且重要的。人與人交互的過(guò)程中,會(huì)在短時(shí)記憶里存儲(chǔ)最近談話中涉及到的對(duì)象。當(dāng)對(duì)話中遇到代詞時(shí),會(huì)無(wú)意識(shí)地從短時(shí)記憶中提取對(duì)象代入語(yǔ)句,從而理解。
天貓精靈目前好像還完全不支持指代關(guān)系,顯得非常笨。而最近幾個(gè)版本的siri開(kāi)始可以支持指代關(guān)系(以前的也不行)。比如說(shuō)當(dāng)你用Siri搜索過(guò)一個(gè)地點(diǎn)之后,你說(shuō):“去那里”。它會(huì)知道你是要去最近搜索的地點(diǎn)。說(shuō)明他把最近搜索的對(duì)象存存起來(lái)了。使得上下文聯(lián)系起來(lái),而不是獨(dú)立存在。
但是實(shí)際溝通過(guò)程中的指代關(guān)系遠(yuǎn)比這復(fù)雜。尤其是當(dāng)人物、地點(diǎn)、事物等指代關(guān)系同時(shí)出現(xiàn)的時(shí)候。還需要更加深入理解人的認(rèn)知模型,才讓機(jī)器實(shí)現(xiàn)與人更流暢的交互。
總結(jié)
語(yǔ)音產(chǎn)品雖然已經(jīng)有很長(zhǎng)的發(fā)展歷史了,但是今天的語(yǔ)音產(chǎn)品仍然像是一個(gè)新的領(lǐng)域。并且,當(dāng)今的語(yǔ)音產(chǎn)品地位也比較尷尬,一方面,語(yǔ)音識(shí)別技術(shù)快速發(fā)展,機(jī)器的語(yǔ)音識(shí)別能力已經(jīng)超過(guò)人類(lèi),但是另一方面,更高層次的語(yǔ)言認(rèn)知模型并沒(méi)有被計(jì)算機(jī)科學(xué)家考慮在內(nèi),使得語(yǔ)音產(chǎn)品實(shí)際使用起來(lái)的時(shí)候,總是顯得很笨。
想要優(yōu)化語(yǔ)音交互的體驗(yàn),腳踏實(shí)地地讓語(yǔ)音交互發(fā)揮更大的價(jià)值,釋放語(yǔ)音交互的生產(chǎn)力,需要更深入的從認(rèn)知科學(xué)的角度,理解人類(lèi)對(duì)語(yǔ)言的認(rèn)知模型,做到人與語(yǔ)音產(chǎn)品的自然交互。
本文由 @ArvinNing 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
想法不錯(cuò),可是如果語(yǔ)音助手真做到了理解各種指代關(guān)系,怕是毫無(wú)隱私可言了。
頂力力??!
語(yǔ)音隨時(shí)在線,自動(dòng)判斷環(huán)境,那我們?nèi)伺c人之間的對(duì)話是否要被監(jiān)聽(tīng)
寫(xiě)的很贊,可否聯(lián)系到您?
可以加你微信
?微信17717832406?,謝謝,等待您的聯(lián)系
好多場(chǎng)景總結(jié)的很好,你在語(yǔ)音交互相關(guān)行業(yè)嗎?
我學(xué)的認(rèn)知科學(xué),以前研究生做過(guò)這方面研究
真的好文
此文真贊,頗受啟發(fā)
好文
好文
文章不錯(cuò)~ 就是口令喚醒那一點(diǎn)有點(diǎn)別的想法,如果不通過(guò)口令喚醒,而且機(jī)器自動(dòng)判斷環(huán)境,一個(gè)是判斷準(zhǔn)確性比較難保證,一個(gè)是機(jī)器畢竟不等同于人,沒(méi)有一個(gè)具體的形象、表情、動(dòng)作等其他輔助,冷不丁開(kāi)口接個(gè)話,其實(shí)想想還蠻可怕的。所以語(yǔ)音喚醒其實(shí)是給用戶一個(gè)確定性,一個(gè)啟動(dòng)動(dòng)作。