AI時(shí)代,人與機(jī)器的溝通方式
編輯導(dǎo)語(yǔ):AI,也就是人工智能,隨著科技的發(fā)展,越來(lái)越多的人工智能出現(xiàn)在我們的生活中,比如手機(jī)里的對(duì)話工具,物流公司、餐館也出現(xiàn)了工作機(jī)器人;本文作者分享了關(guān)于AI時(shí)代人與機(jī)器的溝通方式,我們一起來(lái)看一下。
隨著度曉曉以虛擬形象在百度世界 2020 ?會(huì)上的?次亮相,引發(fā)了人們對(duì)人與機(jī)器的溝通?式的思考。
圖 1 – 度曉曉是百度公司推出的?機(jī)虛擬 AI 助?
度曉曉?前具備視覺(jué)識(shí)別能?,?持最?然的交流?式,更接近人與人的溝通過(guò)程,那么未來(lái)人機(jī)溝通?式?會(huì)是怎么樣的呢?
為了詳細(xì)探究人機(jī)溝通?式的變化和趨勢(shì),我們要從最早的人機(jī)溝通?式說(shuō)起。
一、人適應(yīng)機(jī)器
1. 最早的人機(jī)溝通方式
圖靈測(cè)試:
問(wèn):你會(huì)唱歌嗎?
答:是的。
問(wèn):請(qǐng)?jiān)俅位卮?,你?huì)唱歌嗎?
答:是的。
你多半會(huì)想到,與你對(duì)話的是一臺(tái)機(jī)器,因?yàn)檎H藢?duì)再次回答會(huì)多多少少顯得不耐煩;早在 1950 年,艾倫·圖靈發(fā)表了一篇?jiǎng)潟r(shí)代的論文,預(yù)言了創(chuàng)造出具有真正智能的機(jī)器的可能性。
由于智能這一概念很難確切定義,他提出了著名的圖靈測(cè)試——如果一臺(tái)機(jī)器能與人類展開(kāi)對(duì)話而不被辨別出其機(jī)器身份,那么稱這臺(tái)機(jī)器具有智能;可見(jiàn)半個(gè)世紀(jì)前,人類期望的人機(jī)溝通方式就是自然的方式,即人與人對(duì)話的方式。
1)第一臺(tái)語(yǔ)音交互機(jī)器
在人與機(jī)器溝通的方式方向上,人類做了很多嘗試;1952 年,貝爾實(shí)驗(yàn)室開(kāi)發(fā)的 Audrey 語(yǔ)音識(shí)別系統(tǒng)是其主要標(biāo)志;Audrey 約 180cm 高,可以識(shí)別阿拉伯?dāng)?shù)字 0 – 9 的英文發(fā)音,對(duì)熟人的準(zhǔn)確度高達(dá) 90%以上。
圖 2 – 1952 年貝爾實(shí)驗(yàn)室開(kāi)發(fā)的 Audrey 語(yǔ)音識(shí)別系統(tǒng)
1962 年,IBM 發(fā)明了第一臺(tái)可以用語(yǔ)音進(jìn)行簡(jiǎn)單數(shù)學(xué)計(jì)算的機(jī)器 Shoebox;即便如此,人類至今還沒(méi)有發(fā)明出使用人與人的溝通方式的、通過(guò)圖靈測(cè)試的機(jī)器。
2018 年 5 月,谷歌 Duplex 人工智能語(yǔ)音技術(shù)也只是部分通過(guò)了圖靈測(cè)試;因此,在半個(gè)世紀(jì)前,人機(jī)無(wú)法使用自然的溝通方式的原因是技術(shù)的限制;那時(shí)候互聯(lián)網(wǎng)還沒(méi)有出現(xiàn),語(yǔ)音識(shí)別、自然語(yǔ)言處理技術(shù)只是在萌芽階段。
2)第一個(gè)鼠標(biāo)
正是由于技術(shù)的限制,人類只能使用其他的方式與機(jī)器溝通。
1968 年 12 月 9 日,美國(guó)斯坦福大學(xué)博士道格拉斯·恩格爾巴特展示了世界上第一個(gè)鼠標(biāo);它的外形是一只小木頭盒子,其工作原理是由它底部的小球帶動(dòng)樞軸轉(zhuǎn)動(dòng),繼而帶動(dòng)變阻器改變阻值來(lái)產(chǎn)生位移信號(hào),并將信號(hào)傳至主機(jī)。
總的來(lái)說(shuō),人類當(dāng)時(shí)可以使用的材料是有限的,技術(shù)也只有變阻器等有限的技術(shù);在這個(gè)前提下,人類只能適應(yīng)機(jī)器,從而創(chuàng)造了鼠標(biāo)這種相對(duì)體驗(yàn)好的方式與機(jī)器溝通。我們稱這種溝通方式為“人適應(yīng)機(jī)器”。
圖 3 – 世界上第一個(gè)鼠標(biāo) | 引用 artimachines.com
2. 人適應(yīng)機(jī)器的特征
1)技術(shù)的限制
人適應(yīng)機(jī)器的根本原因是技術(shù)的限制,因?yàn)闄C(jī)器作為產(chǎn)品的一種形式,它的產(chǎn)生包括三大要素:需求、市場(chǎng)和技術(shù)。
- 技術(shù)是產(chǎn)品的核心驅(qū)動(dòng)力;
- 需求是產(chǎn)品落地的基礎(chǔ);
- 市場(chǎng)是產(chǎn)品成長(zhǎng)的環(huán)境。
人類使用技術(shù)打造產(chǎn)品,用產(chǎn)品試探市場(chǎng),滿足用戶的需求,讓新的產(chǎn)品發(fā)揮出商業(yè)價(jià)值。
50 年前,技術(shù)還沒(méi)有成熟,即便我們的需求、我們的想象力、我們期望的是用最自然的方式溝通;也只能適應(yīng)機(jī)器,使用鍵盤(pán)、鼠標(biāo)等來(lái)與機(jī)器溝通。
圖 4 – 需求、市場(chǎng)和技術(shù)
2)設(shè)計(jì)創(chuàng)造更好的體驗(yàn)
設(shè)計(jì)是溝通的橋梁,連接著用戶的需求和技術(shù)的能力;雖然有技術(shù)的限制,但設(shè)計(jì)師可以讓人適應(yīng)機(jī)器的體驗(yàn)變得更好。
以百度翻譯 APP 的取詞翻譯為例,直到現(xiàn)在 5G 還沒(méi)有完全普及,光學(xué)字符識(shí)別(OCR)技術(shù)在全世界 200 多語(yǔ)種的表現(xiàn)也達(dá)到不了毫秒級(jí)的全文精準(zhǔn)識(shí)別。
面臨著網(wǎng)速等技術(shù)的限制,設(shè)計(jì)師采用矩形的取詞框與機(jī)器溝通,讓用戶瞄準(zhǔn)書(shū)本中的單詞去翻譯;瞄準(zhǔn)哪里、翻譯哪里的這一行為,既降低了技術(shù)實(shí)現(xiàn)的難度,也讓人適應(yīng)機(jī)器的過(guò)程不再這么生硬,讓翻譯的體驗(yàn)變得更好。
圖 5 – 百度翻譯 APP 取詞翻譯
總的來(lái)說(shuō),半個(gè)世紀(jì)前“人適應(yīng)機(jī)器”的溝通方式是必然,不可否認(rèn)這種溝通方式在下一個(gè)革命性技術(shù)突破前還會(huì)長(zhǎng)期存在,但設(shè)計(jì)可以幫助我們?cè)谶@過(guò)程中創(chuàng)造更好的體驗(yàn)。
二、機(jī)器適應(yīng)人
1. 機(jī)器適應(yīng)人的時(shí)代
隨著 AI 時(shí)代的來(lái)臨,加速了 5G、面部識(shí)別等一系列新技術(shù)的進(jìn)步;雖然還未完全成熟或普及,但是機(jī)器主動(dòng)適應(yīng)人的條件似乎已經(jīng)具備,機(jī)器開(kāi)始主動(dòng)適應(yīng)人的表達(dá)方式和生活方式。
圖 6 – 一系列新技術(shù)的進(jìn)步
2. 機(jī)器適應(yīng)人的方式
對(duì)話是人與人之間最自然的溝通方式之一,當(dāng)技術(shù)達(dá)到了一定的水平,語(yǔ)音對(duì)話逐步進(jìn)入了大眾的視野;該方式不僅提高了信息傳遞的效率,還幫助用戶解放雙手和雙眼;而且?guī)椭鷮?duì)文字識(shí)別有障礙的群體更好的使用產(chǎn)品。
當(dāng)人們逐步適應(yīng)了對(duì)話作為與機(jī)器溝通的方式時(shí),也對(duì)溝通舒適度有了更高的憧憬和需求。
1)百度地圖 APP
借助語(yǔ)音技術(shù),百度語(yǔ)言助手“小度”大幅提升了用戶的溝通舒適度,除了對(duì)駕車這一用戶群體雙手的釋放之外;當(dāng)用戶說(shuō)出“小度小度,回家”這樣簡(jiǎn)單的指令時(shí),通過(guò)算法和數(shù)據(jù)的積累,百度地圖會(huì)根據(jù)用戶習(xí)慣,自動(dòng)規(guī)劃出從當(dāng)前位置回家的最優(yōu)路線。
甚至當(dāng)用戶每天在特定時(shí)間打開(kāi)百度地圖時(shí),會(huì)預(yù)算出當(dāng)前時(shí)段你是否想去這里?使溝通更加高效。
圖 7 – 百度地圖 APP
2)百度翻譯 APP
百度翻譯 APP 通過(guò)人工智能技術(shù)幫助用戶打破語(yǔ)言的界限,支持全世界200+語(yǔ)言互譯,提升全世界的溝通體驗(yàn)。
圖 8 – 百度翻譯 APP
不僅如此,百度翻譯 APP 還幫助用戶解決學(xué)習(xí)、商務(wù)、旅游等不同場(chǎng)景下的語(yǔ)言問(wèn)題,比如:百度翻譯同傳通過(guò)領(lǐng)先行業(yè)的同傳技術(shù)與服務(wù),大幅降低信息交流成本,驅(qū)動(dòng)企業(yè)持續(xù)發(fā)展。
3)百度翻譯同傳
圖 9 – 百度翻譯 同傳
在 2020 百度全球人工智能技術(shù)大會(huì)上,百度翻譯同傳搭建了大會(huì)不同語(yǔ)種之間溝通的橋梁。
同聲傳譯本是一項(xiàng)困難且專業(yè)的工作,翻譯官除了對(duì)語(yǔ)言有深厚的儲(chǔ)備,還需要極強(qiáng)的反應(yīng)能力和應(yīng)變能力;注意力需要高度集中,對(duì)腦力和體力都具有極高等要求。
同傳通過(guò)搭載百度語(yǔ)言自研的 SMLTA 聲學(xué)建模技術(shù),提升識(shí)別的準(zhǔn)確性;同時(shí),通過(guò)對(duì)音頻信號(hào)的加強(qiáng)處理,提升了識(shí)別的“魯棒性(Robustness)”。
在該場(chǎng)景下,百度翻譯同傳做到了全場(chǎng)景多模態(tài),即時(shí)的沉浸式體驗(yàn)——這也進(jìn)一步體現(xiàn)了機(jī)器適應(yīng)人的溝通方式。
三、人和機(jī)器相互適應(yīng)
1. 機(jī)器更像人的誕生
當(dāng)機(jī)器開(kāi)始逐步適應(yīng)人,一系列新的問(wèn)題也被大家所關(guān)注,人類到底因該如何與之相處成為了大眾所熱議的話題。
1992 年,雷波特與他人一同創(chuàng)辦了波士頓動(dòng)力;波士頓動(dòng)力每出一款機(jī)器人都及其引人注目,甚至?xí)破鹨魂囮嚈C(jī)器人要逆天的倫理性大討論。
圖 10 – 波斯頓機(jī)器人引用 | Boston Dynamics
2015 年 4 月 19 日,索菲亞被激活。她以女演員奧黛麗·赫本為模型,與以前的各種型號(hào)機(jī)器人相比,她更具與人類相似外觀和行為方式。
她的發(fā)明者漢森說(shuō):“它的目標(biāo)就是像任何人類那樣,擁有同樣的意識(shí)、創(chuàng)造性和其他能力?!?/p>
圖 11 – 索菲亞 | 引用 極客公園
人類從開(kāi)始對(duì)于機(jī)器的期望是它能夠幫助我們帶來(lái)意想不到的便利,但隨著技術(shù)的進(jìn)步,類似像大白這樣具有溫度的機(jī)器人走進(jìn)我們的視線,它采用了更具有溫度的方式與人溝通。
圖 12- 大白 | 引用 超能陸戰(zhàn)隊(duì)
2. 不同場(chǎng)景下的情感溝通
由此,伴隨著技術(shù)的發(fā)展不斷發(fā)酵,關(guān)于機(jī)器更像人的討論也越演越烈。
給技術(shù)產(chǎn)品賦予人類的性格特征似乎已經(jīng)成為趨勢(shì),被賦予的不同“人格”的機(jī)器所引發(fā)的話題也不盡相同;比如仿真機(jī)器人帶來(lái)的恐慌,和大白的爆紅。
但事實(shí)是:即使有了深度學(xué)習(xí)的加持,現(xiàn)階段的機(jī)器還遠(yuǎn)沒(méi)有到達(dá)真正“智能體”的標(biāo)準(zhǔn);既然如此,引發(fā)恐慌的究竟機(jī)器人的技術(shù),還是它過(guò)強(qiáng)“人格”所觸犯到的人類的存在感邊界?
原因是多方面的——比如從心理學(xué)的角度,由于在外形設(shè)計(jì)的層面,若機(jī)器依舊停留在工具的外形緯度,人類下意識(shí)本能的判斷也就將其歸為了工具的類別;從發(fā)明的角度,被人類發(fā)明的機(jī)器/工具,除了本身具備特定的功能之外,還取決于被如何使用或如何定義。
簡(jiǎn)單來(lái)說(shuō),同樣一把剪刀,可以是工具也可以是兇器——計(jì)算機(jī)或是智能機(jī)器也是同樣的道理。
因此,將機(jī)器”人格”化的方向,不是賦予機(jī)器所謂獨(dú)立的“人格”;而是讓機(jī)器擁有更有情感、更人格化的設(shè)計(jì),讓人類和機(jī)器能夠產(chǎn)生情感上的溝通交流甚至共鳴,能夠更好的相互適應(yīng)。
1)多樣化場(chǎng)景
正如上文提到的,用語(yǔ)音回復(fù)的方式,賦予機(jī)器情緒和性格只是人類和機(jī)器溝通的開(kāi)始。
現(xiàn)實(shí)的情況是:自然語(yǔ)言處理、知識(shí)圖譜、圖像識(shí)別、人臉識(shí)別等越來(lái)越多的細(xì)分技術(shù)早已被運(yùn)用到不同產(chǎn)品中,為人類解決不同場(chǎng)景下的問(wèn)題;只是隨著需求的增多,被直接展示的越來(lái)越多罷了;由此,在不同產(chǎn)品的使用場(chǎng)景下,我們需要給予其更精準(zhǔn)的“人格”定位,營(yíng)造更恰當(dāng)?shù)臏贤▓?chǎng)景。
所以,作為翻譯技術(shù)賦能的學(xué)習(xí)類產(chǎn)品;結(jié)合產(chǎn)品功能和用戶需求,在設(shè)立 IP 形象時(shí),百度翻譯 APP 將其“人格”定位為“智能助手”。
圖 13 – 百度翻譯 APP IP 形象 DODO
在保留其機(jī)器屬性的同時(shí),強(qiáng)調(diào)陪伴和可依賴的溝通方式‘強(qiáng)化情感溫度,塑造區(qū)別于其他冰冷機(jī)器的愉悅感。
圖 14 – 百度翻譯 APP IP 形象 DODO
除此之外,順應(yīng)不同場(chǎng)景的情感溝通方案,UNIT 的個(gè)性化定制功能則滿足了人類在行為水平層面的多方面訴求。
圖 15 – 百度翻譯 UNIT 智能
2)個(gè)性化反饋
其實(shí),人與機(jī)器溝通邊界探索與機(jī)器本身情緒的反應(yīng)、分析模型的準(zhǔn)確性是直接關(guān)聯(lián)的;且在現(xiàn)有的技術(shù)中,AI 對(duì)情緒的情感分析還停留在封閉場(chǎng)景中的階段。
通俗來(lái)說(shuō),它也許能理解你的表情、語(yǔ)音,但猜不到你表情背后的內(nèi)心活動(dòng)到底是什么。
梅羅維茨在《消失的地域》中曾提出“新媒介-新場(chǎng)景-新行為”的關(guān)系模型,認(rèn)為新媒體的應(yīng)用可能重建大范圍的場(chǎng)景和行為,甚至人類的社交角色與規(guī)則也隨之產(chǎn)生影響;確實(shí),線上線下、虛擬現(xiàn)實(shí)的場(chǎng)景重疊,個(gè)體人類也已開(kāi)始追求更具有個(gè)性化的細(xì)致表達(dá)。
例如 Emoji,表情包作為信息時(shí)代的傳播溝通符號(hào),火遍全球;在 ios12 中,借助人臉識(shí)別技術(shù),蘋(píng)果公司推出了可定制的 Memoji。
圖 16 – Apple Memoji|引用 Jeremy Horwitz
度曉曉的誕生也是如此,基于語(yǔ)音、圖像、語(yǔ)言等技術(shù)的支持賦能,度曉曉具備答疑解惑、情感陪伴等能力,可以幫用戶解決生活中的各種問(wèn)題;在溝通方式上,度曉曉也不再局限于語(yǔ)音的互動(dòng)方式,還加入了視頻聊天、觸碰閑聊等功能。
圖 17 – 百度手機(jī)虛擬AI助手度曉曉
更重要的是,度曉曉還會(huì)隨著用戶的使用而形成不同的性格,是一個(gè)典型的養(yǎng)成型助理;且隨著用數(shù)據(jù)的積累,最終能夠?qū)崿F(xiàn)千人千面的效果,每個(gè)人的度曉曉都會(huì)因各自主人而不一樣。
圖 18 – 百度手機(jī)虛擬AI助手度曉曉
3. 未來(lái)
至此,關(guān)于機(jī)器與人類溝通的方式討論似乎還沒(méi)有一個(gè)確切的答案。
未來(lái)的機(jī)器到底是否會(huì)真實(shí)的感情? 我們無(wú)法論證,但可以肯定隨著人工智能時(shí)代的到來(lái),機(jī)器已經(jīng)在改變?nèi)祟惖纳睿乙l(fā)了人類不同的情感需求和反應(yīng)。
腦機(jī)接口技術(shù)的爆發(fā),神經(jīng)形態(tài)芯片的日趨成熟;科技的不斷進(jìn)步,似乎為人和機(jī)器的溝通方式帶來(lái)無(wú)限的可能;也許未來(lái)的某天,機(jī)器能夠完全使用人類的溝通方式與我們溝通,甚至不被察覺(jué)。
那么對(duì)你而言,人機(jī)溝通方式的邊界在哪?未來(lái)可能又會(huì)誕生哪些技術(shù),為人機(jī)溝通帶來(lái)意想不到的可能?
參考資料:
《百度百科:度曉曉》
《百度百科:圖靈測(cè)試》
《A Brief History of ASR: Automatic Speech Recognition》
《鼠標(biāo)誕生49周年!世界上第一個(gè)鼠標(biāo)就長(zhǎng)這樣》
《AI與情感》
《未來(lái)搜索還能這樣玩!養(yǎng)成類虛擬助理“度曉曉”亮相百度世界2020》
作者:周子軒、李俞鋒、石靜雯
本文由 @Du Design 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 unsplash,基于CC0協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!