為什么語(yǔ)音交互有個(gè)心理學(xué)問題

2 評(píng)論 14928 瀏覽 5 收藏 8 分鐘

語(yǔ)音交互一只被認(rèn)為是取代鍵盤交互的新方式,可是要走入尋常百姓家,還是差一點(diǎn)。

如今,Apple有Siri,Google有Google Now,Microsoft有Cortana,Amazon有Echo;國(guó)內(nèi)大小互聯(lián)網(wǎng)公司諸如百度、科大訊飛、出門問問也都有自己的語(yǔ)音服務(wù)。語(yǔ)音控制不僅應(yīng)用在手機(jī)屏幕,還同樣用于以下各種使用場(chǎng)景:客廳家居、智能手表、車載系統(tǒng)、PC電腦?;谡Z(yǔ)音的交互方式似乎已經(jīng)到了爆發(fā)的前夜,只差那么一點(diǎn)兒,就可以成為下一個(gè)鼠標(biāo)鍵盤式的新交互方式,走入尋常百姓家。

但畢竟還是差了那么一點(diǎn)兒。即便語(yǔ)音控制已經(jīng)成為當(dāng)今智能手機(jī)的標(biāo)配,又有多少人會(huì)利用語(yǔ)音向手機(jī)發(fā)出指令呢?少之又少。很大一個(gè)原因——正如羅永浩所說(shuō)——是因?yàn)檎Z(yǔ)音交互面臨著用戶的心理障礙。

羅永浩解釋的第一個(gè)原因,是人們無(wú)法容忍一個(gè)沒有達(dá)到智能水平的設(shè)備跟他耍聰明:

從人的正常角度來(lái)講,如果一個(gè)軟件在你面前裝聰明,你會(huì)想要去戳穿他,于是他馬上就被戳穿了。
第二個(gè)原因,是在他人面前使用語(yǔ)音交互的尷尬。

當(dāng)你使用語(yǔ)音軟件時(shí),別人會(huì)怎樣看你?

在我看來(lái),這兩個(gè)原因其實(shí)說(shuō)的是一個(gè)問題:智能語(yǔ)音不夠智能。

語(yǔ)言是種非常自然的交流方式,它的特性決定了人們一直以來(lái)對(duì)語(yǔ)言交流的期待。尤其是面對(duì)面溝通時(shí),我們渴望立即獲得回應(yīng),并且最好也是聲音反饋。因?yàn)檎Z(yǔ)言本身是多變而復(fù)雜的,理解自然語(yǔ)言也就需要更高的智力。我們期待的是和具有相應(yīng)智力水平的個(gè)體進(jìn)行對(duì)話。

這樣看來(lái),當(dāng)下的語(yǔ)音交互存在三個(gè)主要問題,它們像是橫亙?cè)谌藗兠媲暗钠琳?,阻礙人們自然地使用語(yǔ)音來(lái)控制設(shè)備。這三個(gè)問題可以概括為,現(xiàn)今的智能語(yǔ)音不夠智能,而人們總是習(xí)慣和理解自己話語(yǔ)的人進(jìn)行自然的語(yǔ)言對(duì)話。

問題1:智能語(yǔ)音并不能真正理解人的語(yǔ)言,它不具備人類的智力。

現(xiàn)在的智能語(yǔ)音停留在對(duì)關(guān)鍵詞的內(nèi)容識(shí)別和上下文分析,而機(jī)器是沒有“語(yǔ)感”的,也不懂得什么語(yǔ)法。這樣一來(lái),以人類智力來(lái)理解,機(jī)器就顯得很蠢,而試圖和它溝通交流的行為也就顯得很蠢。類似的行為其實(shí)也適用于文字交流,一旦對(duì)話的情境被建立起來(lái),人們就希望對(duì)話者的智力水平足以和自己相當(dāng)。
現(xiàn)實(shí)生活中,也存在著和智力水平不達(dá)標(biāo)的事物進(jìn)行語(yǔ)言交流的現(xiàn)象,比如和幼童說(shuō)話、對(duì)寵物說(shuō)話,甚至是對(duì)花草樹木說(shuō)話。但這種情況下,人們是不期待獲得回應(yīng)的,低預(yù)期也就降低了回應(yīng)失敗的尷尬。

但是智能語(yǔ)音往往被塑造為成年人形象(通過音色設(shè)定來(lái)塑造形象),讓語(yǔ)音交互變得普及也需要建立起用戶的預(yù)期。而智力水平確實(shí)是語(yǔ)音交互最大的短板。

問題2:當(dāng)人們用語(yǔ)言進(jìn)行交流的時(shí)候,通常希望立即獲得回應(yīng)。

與文字書信不同,語(yǔ)言交流在過去往往是面對(duì)面,所以交流是即時(shí)完成。即便有了電話之后,語(yǔ)言交流仍然保持著即時(shí)性。
有兩種形式的語(yǔ)音交流打破了這種即時(shí)性:對(duì)講機(jī)和即時(shí)通訊應(yīng)用。在這兩種場(chǎng)景下,對(duì)話者的語(yǔ)言是“互斥”的,不會(huì)出現(xiàn)聲音的重疊和打斷,因此對(duì)話者也就沒有被置于一個(gè)共通的虛擬空間中。它所造成的結(jié)果,是這兩種形式的語(yǔ)音交流無(wú)法提供面對(duì)面或電話交流時(shí)的暢快感和現(xiàn)場(chǎng)感,也就缺少一部分“對(duì)話”的體驗(yàn)。

與之同理,語(yǔ)音交互因?yàn)榛コ庑缘奶攸c(diǎn),很難被當(dāng)作是和機(jī)器對(duì)話。所以Siri式的仿自然語(yǔ)言交流也會(huì)缺少對(duì)話的現(xiàn)場(chǎng)感。

問題3:語(yǔ)言交流的即時(shí)性還有一個(gè)結(jié)果,就是人們期望對(duì)聲音的反饋也是聲音。

語(yǔ)言溝通是快節(jié)奏且高效的,文字表達(dá)則有一定的延遲。當(dāng)一個(gè)人處在即時(shí)狀態(tài)下的高效表達(dá)時(shí),對(duì)方以慢速的文字作為回應(yīng)會(huì)讓溝通現(xiàn)場(chǎng)顯得不協(xié)調(diào)。這也是為什么語(yǔ)音交互一定要配以聲音反饋,哪怕是你對(duì)Siri說(shuō)“給老爸打電話”,在它完成這一指令之前,也一定要回應(yīng)一句:“正在撥打父親的電話”。
但問題在于,語(yǔ)音合成的技術(shù)實(shí)力還沒有達(dá)到人們的期待。生硬的、機(jī)器化的聲音表達(dá),無(wú)時(shí)無(wú)刻不在提醒著這個(gè)對(duì)話者是“非我族類”,語(yǔ)音合成的生硬效果也在阻礙著人們將機(jī)器視為同等智力水平的個(gè)體。(你也許會(huì)想到電影《星際穿越》中的機(jī)器人Tars,生硬的合成語(yǔ)音效果正是為了突出它的機(jī)器身份。)

當(dāng)下的智能語(yǔ)音產(chǎn)品中,比較討巧的辦法是先不追求語(yǔ)言溝通的現(xiàn)場(chǎng)感,而將語(yǔ)音作為對(duì)機(jī)器進(jìn)行發(fā)號(hào)施令的一種替代性方式。面對(duì)語(yǔ)音識(shí)別的設(shè)備,人們說(shuō)出“撥打XX的電話”這樣的語(yǔ)音指令,要比說(shuō)“你幫我打個(gè)電話給XX吧”這樣的交流方式,少一分尷尬。也正是將語(yǔ)音交互的預(yù)期降低,才能讓一些喜歡嘗鮮的極客們放下心理芥蒂,對(duì)機(jī)器說(shuō)出指令。

但如果走在大街上,周圍都是同行的路人,你會(huì)對(duì)著iPhone大聲說(shuō)“閱讀我剛剛收到的短信”嗎?顯然不會(huì)。因?yàn)檎Z(yǔ)言溝通的特性,導(dǎo)致大眾對(duì)語(yǔ)音交互的期待其實(shí)是很難被降低的。

那么語(yǔ)音交互倘若想達(dá)到電影《Her》中以假亂真的狀態(tài),得先解決好以上三個(gè)問題才行。

 

作者:@醬鹵

來(lái)源:簡(jiǎn)書

 

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這樣看,語(yǔ)音交互方式要普及還很遙遠(yuǎn)

    來(lái)自福建 回復(fù)
  2. 一陣見血!

    來(lái)自廣東 回復(fù)