為什么每次和 Siri 聊天,我都一肚子火?
![](http://image.woshipm.com/wp-files/img/100.jpg)
人工智能還是…人工智障?
全世界最痛苦的事,就是和一個跟你不在同一頻道的人尬聊。
相反,和自己的親朋好友另一半說話就輕松多了,比如你說 “今天上班好累啊”,你的家人、朋友就會說,“那今晚別做飯了,咱們出去吃?”
這種默契才是檢驗(yàn)交情深淺的唯一標(biāo)準(zhǔn)!
人和人之間有默契不罕見,但你能想象人和機(jī)器之間產(chǎn)生默契嗎?
還真有可能!小探獨(dú)家采訪了來自硅谷的初創(chuàng)公司 Mosaix 的 CEO 兼創(chuàng)始人 Sam,以及 Mosaix 的 Chief Science Officer (以下簡稱 CSO)勞逆,讓這兩位小哥給我們講講他們是打算怎么讓 AI 一步步成為我們的貼心小棉襖的。
(左為 Mosaix CEO、創(chuàng)始人 Sam;右為 Mosaix CSO 勞逆)
人工智能還是…人工智障?
這兩年不論亞馬遜的 Echo,還是 Google 的 Google Home,各種語音助手都很火。但我們可以想象一下,假如你的語音助手是個笨蛋,你和它交流起來該有多么痛苦。
我們來設(shè)想這么個場景:你吃著東西滿手都是油,或者在洗碗滿手都是泡沫,總之你騰不出手?jǐn)[弄你的音響。這時你突然想聽一首歌,于是你對音響說:
– 給我放首 Justin 的歌兒。
– 是名字里帶有 Justin 的歌曲?還是歌手是 Justin 的歌?
– 歌手是 Justin 的歌。
– 是賈老板 Justin Timberlake,還是賈斯丁?逼寶?
– 賈斯丁?逼寶。
– 你是想聽他最新的歌曲?還是榜單位置最高的歌曲?還是播放次數(shù)最高的歌曲?還是點(diǎn)贊次數(shù)最高的歌曲?
你覺得有點(diǎn)煩,但還是說 “都行?!?/p>
– 你想從 Spotify 播放?還是 YouTube 播放?還是 iTunes 播放?
這時你臉色已經(jīng)很難看了,但考慮到你的人工智能是個人工智障,你還是強(qiáng)壓怒火說,“那就 YouTube 吧”。
– YouTube 您想聽播放量最高的視頻、還是評論數(shù)最高的視頻、還是好評率最高的、還是最新視頻?
而讓機(jī)器真正懂你的意思,就是 Mosaix 想達(dá)成的目標(biāo)之一。
這么說吧,我們?nèi)撕腿私涣?,是從耳朵(聽到別人講話)、到大腦(明白別人的意思)、再到用手腳執(zhí)行大腦發(fā)出的命令。
人和機(jī)器交流也一樣:先到機(jī)器的 “耳朵”,也就是負(fù)責(zé)聽懂我們?nèi)祟惖降自谡f些什么的語音技術(shù);再到負(fù)責(zé)理解這句話意思的大腦,也就是 Mosaix;再到執(zhí)行命令,也就是連著 Mosaix 的各種服務(wù)。
Mosaix CSO 勞逆告訴小探,現(xiàn)在語音喚醒、語音識別之類的技術(shù)已經(jīng)比較成熟,機(jī)器已經(jīng)能夠比較準(zhǔn)確地把我們?nèi)祟愓f話時發(fā)出的聲音變成一句話。
現(xiàn)在的難點(diǎn)是:機(jī)器還是不太懂每句話都是什么意思、到底該怎么把它翻譯成一個可以直接在網(wǎng)上執(zhí)行的命令?這部分就是 Mosaix 做的語義理解。
而機(jī)器之所以經(jīng)常聽不懂我們?nèi)祟愓f話,是因?yàn)槲覀冇袝r說話會說不清楚,也就是 “語義缺失”。
“我想放松一下”
什么叫“語義缺失”?小探給你舉個例子:
“找下五公里內(nèi)最便宜的加油站” 和 “我想放松一下” 這兩句話,你覺得哪句更容易被機(jī)器聽懂?
答案是第一句,因?yàn)檫@句話已經(jīng)包含了機(jī)器語言所有的要素:
- 先以你的位置為圓心、畫個半徑為五公里的圓;
- 然后把所有商家都找出來。
- 再按商戶類型過濾出加油站
- 選出價格最低的一個
- 搞定!
換句話說,“找下五公里內(nèi)所有加油站” 這句我們?nèi)祟愓f的話,和機(jī)器所熟悉的語言很像、沒有缺失的語義,所以機(jī)器能直接把這句話翻譯成它能執(zhí)行的語言。
但當(dāng)機(jī)器聽到 “我想放松一下” 這種非常抽象的話時,機(jī)器的內(nèi)心是茫然而懵逼的,因?yàn)闄C(jī)器也不知道你的意思到底是播某一類的歌?某一類的電影?還是導(dǎo)航去什么地方。
不過,如果一位和你很熟悉的朋友聽到這句話,他/她估計就能秒懂你的意思。感情深一口悶?別逗了,誰能聽懂你只說了一半的話,誰才叫和你感情深。
這就是 Mosaix 想讓機(jī)器做的事情,Mosaix 想幫機(jī)器把缺失的語義 —— 也就是我們說話太模糊的部分 —— 填進(jìn)句子里,而且還不能填錯、曲解你的意思。
有意思的是,等這個技術(shù)再發(fā)展成熟些時,它對一個人的了解可能比那個人的老公或老婆還多。比如,你的老公或老婆可能記住了你喜歡 A,但他/她不知道你為什么喜歡 A,換個場景他/她又要重新死記硬背。但 Mosaix 做的 AI 就能理解其背后邏輯、因此能舉一反三,不僅知其然、還知其所以然。
這還不算完!Mosaix 除了能理解你說話的意思,還能在聽懂后執(zhí)行你的要求。比如你說你想聽首 Justin Bieber 的歌,它還要自己決定從哪兒播放這首歌、從哪兒獲取信息。如果你有 Spotify 賬號,它就知道自己從 Spotify 上搜;如果你說你想看劇,那它也會自己去愛奇藝、搜狐視頻之類的網(wǎng)站給你搜劇。
Mosaix 聲控電視
讓你直接對音箱、電視發(fā)號施令
讓機(jī)器能明白你說的話到底是什么意思,只是 Mosaix 做的 “語音搜索” 這件事情的一部分。
什么,你說你不明白什么叫語音搜索?你可以把它簡單理解為:
Mosaix = 聲控搜索引擎(百度或谷歌)?+ 個人語音助理(亞馬遜的 Alexa 或蘋果的 Siri)
用其 Chief Scientist 勞逆的話說,Mosaix 是 “用自然對話的方式,解決 ‘搜索’ 這個本質(zhì)問題”。我們剛才說的讓機(jī)器聽懂你說的話、比你老公 / 老婆更懂你,只是個人語音助理這部分。
說完了語音助理,我們再來說說 “聲控搜索引擎” 這部分。
現(xiàn)在聲控搜索引擎主要有兩個問題:
- 搜索得太“笨”,一字一句搜;
- 設(shè)備不夠智能。
(1)搜索得太笨
我們可以把人粗略地分成兩種:在度娘或 Google 上搜 “紅燒肉 做法” 的人(比如你),和搜 “紅燒肉應(yīng)該怎么做比較好吃呢?” 的人(比如你媽你姥姥)。如果你想得到盡量多的結(jié)果,很明顯前一種更好。
這就是傳統(tǒng)搜索引擎的問題:它更傾向于一字一句地搜索。在人家輸入 “紅燒肉應(yīng)該怎么做比較好吃呢?” 的時候,它不一定能把這個問題簡化成 “紅燒肉 做法”。
你說搜索引擎笨吧,它的確有全世界幾乎所有問題的答案;你說他聰明吧,稍微換種說法問,它又回答不上來了…
除了搜索本身的不足,搜索設(shè)備也有局限性 —— 語音搜索更是如此。
(2)設(shè)備不夠智能
我們現(xiàn)在能用語音給手機(jī)下些簡單的指令,但還沒辦法用換著法子用更高級的語音完成任務(wù)。換句話說,我們可以對 Echo 說 “把燈關(guān)了”,然后 Echo 自己就關(guān)燈,不用我們動手,這是簡單聲控。
現(xiàn)在的電腦、電視,就停留在 “簡單聲控” 階段:你可以對著電腦或電視說 “我要看《蜘蛛俠》”,然后電視自己給你播放。但如果你說 “我今天很累,來點(diǎn)有意思的”,電視可能就懵掉了。
Mosaix 的解決方法是:以其 App 為入口,用它的云端服務(wù)連接電視、汽車系統(tǒng)、音箱…等各種設(shè)備。然后 Mosaix 在后端處理你的請求,不論你用什么設(shè)備發(fā)出請求,請求都會百川匯海發(fā)給 Mosaix,等 Mosaix 處理好后再把答案發(fā)回去。
比如你在洗碗時對著帶有麥克風(fēng)的智能音箱說,“給我來點(diǎn)帶勁的”,音箱聽到這個指示,就會問在后臺運(yùn)行的 Mosaix:“ ‘給我來電帶勁的’ 這句話啥意思?” Mosaix 計算一番,弄明白意思后,就會告訴音箱放哪首歌。這樣從頭到尾,你只用聲控就能聽歌、看電影、看新聞了。
Mosaix 與上汽合作工作圖
Mosaix 在成立之初,專門只做車上的應(yīng)用,現(xiàn)在則計劃擴(kuò)張到電視、音箱等任何不需要你盯著看、可以邊洗碗邊聽的事情上。
人類調(diào)教出來的 AI,就要比我們聰明了嗎?
基于機(jī)器學(xué)習(xí)的自然語言理解有兩種主要方式:強(qiáng)監(jiān)督學(xué)習(xí),和弱監(jiān)督學(xué)習(xí)。
所謂強(qiáng)監(jiān)督學(xué)習(xí),就是在訓(xùn)練機(jī)器聽懂我們說話的過程中,由人類插手,親自告訴機(jī)器哪句話是什么意思、應(yīng)該怎么理解,因?yàn)橹挥腥祟惒胖?“這句話等于那句話”。或者讓機(jī)器從網(wǎng)上扒數(shù)據(jù),再由人類提供反饋。
這種方式有個問題:對于智能搜索需要面對的極大量的內(nèi)容來說,強(qiáng)監(jiān)督學(xué)習(xí)效率太低、很難規(guī)?;?。
另外,“由人類插手” 意味著無法避免人為影響,所以最后 AI 理解的內(nèi)容做不到完全客觀、可能會有主觀色彩,而導(dǎo)致產(chǎn)生潛在的偏差。
而弱監(jiān)督學(xué)習(xí)則是 “不用人教、讓機(jī)器自己自主學(xué)習(xí)”。
據(jù)勞逆介紹,現(xiàn)在 Siri、Alexa 等語音助理,用的都是我們上兩段提到的強(qiáng)監(jiān)督學(xué)習(xí),強(qiáng)監(jiān)督學(xué)習(xí)也因此被認(rèn)為是正統(tǒng)。與之相反,很長一段時間來弱監(jiān)督學(xué)習(xí)一直被當(dāng)成 “非主流”。
對這種觀點(diǎn)發(fā)起挑戰(zhàn)的,正是 Mosaix。
2017 年起,勞逆和他帶領(lǐng)的團(tuán)隊就開始利用弱監(jiān)督加強(qiáng)學(xué)習(xí)解決自然語言理解問題(順帶提一句,勞逆作為絕對的學(xué)術(shù)大牛,曾在谷歌擔(dān)任資深科學(xué)家多年,是自然語言領(lǐng)域理解和機(jī)器學(xué)習(xí)領(lǐng)域的專家,也是多個學(xué)術(shù)會議和期刊的編委或主席,但接受小探采訪時人卻非常低調(diào)謙虛)。
截止 2018年,他們所開發(fā)的語義引擎在自然語言問答三大公開數(shù)據(jù)集上(斯坦福 Web Question and Answering、斯坦福 WikiTableQuestions、Salesforce WikiSQL),力壓微軟、谷歌、斯坦福、耶魯?shù)葯C(jī)構(gòu),取得了弱監(jiān)督條件下排名第一的好成績。
勞逆非常自豪地說,這證明了弱監(jiān)督加強(qiáng)學(xué)習(xí)在自然語言理解領(lǐng)域的潛力。對于語義明確的問題弱監(jiān)督學(xué)習(xí)可以達(dá)到非常接近強(qiáng)監(jiān)督學(xué)習(xí)的效果。如果換成有 “語義缺失”的問題,強(qiáng)監(jiān)督學(xué)習(xí)會遇到人類智能的瓶頸,而弱監(jiān)督學(xué)習(xí)就可以輕易超越。
我們以 “機(jī)器下圍棋” 為例:
如果說強(qiáng)監(jiān)督學(xué)習(xí)是人類高手手把手教機(jī)器揣摩圍棋的話,那么弱監(jiān)督學(xué)習(xí)就是機(jī)器本身以圍棋規(guī)則為準(zhǔn)、自己去 “領(lǐng)悟”、自己去總結(jié),從而學(xué)習(xí)下圍棋的。
圍棋 AI 的代表 AlphaGo,最初是在人類棋譜的調(diào)教下,以強(qiáng)監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)下圍棋,它可以 60:0 戰(zhàn)勝人類頂尖高手。讓人沒想到的是,后來出現(xiàn)的 AlphaGoZero 青出于藍(lán) —— 依靠弱監(jiān)督加強(qiáng)學(xué)習(xí)的 AlphaGoZero 讓機(jī)器自己去 “領(lǐng)悟”,并最終以 89:11 戰(zhàn)勝 AlphaGo。
有沒有搞錯?!和人類學(xué)下棋的 AI,最后輸給了純靠學(xué)規(guī)則、自己教自己下棋的 AI…
而 Mosaix 對加強(qiáng)機(jī)器學(xué)習(xí)在自然語言理解領(lǐng)域的應(yīng)用,也和 AlphaGoZero 有異曲同工之處。
當(dāng)然,這并不是說弱監(jiān)督學(xué)習(xí)已經(jīng)完全戰(zhàn)勝強(qiáng)監(jiān)督學(xué)習(xí)了,兩者根據(jù)應(yīng)用場景不同,有時難分高下,但至少隨著 Mosaix 的技術(shù)突破,提供了一種 “以弱勝強(qiáng)” 的可能性。
從商業(yè)角度看,Mosaix 意在把弱監(jiān)督學(xué)習(xí)產(chǎn)品化,變成能懂你心、當(dāng)你的貼心小棉襖的深度語義搜索:
從 2017 年起,Mosaix 與上汽集團(tuán)開始探索技術(shù)在出行領(lǐng)域的應(yīng)用。在完成了預(yù)研項目的基礎(chǔ)上,上汽北美創(chuàng)新中心認(rèn)為 “Mosaix 在語義識別方面積累的兩項獨(dú)特優(yōu)勢 —— ‘基于位置的自然語言理解’ 和 ‘基于海外(?。┱Z種的語義分析’ 可以幫助上汽集團(tuán)差異化地進(jìn)軍海外、拓展國際市場。” 除了汽車,Mosaix 還與全球領(lǐng)先的智能電視、電商、以及機(jī)器人品牌都展開了合作。
Mosaix 為上汽自動駕駛場景設(shè)計開發(fā)智能助手
不過,Mosaix 的野心顯然不止于此。
有預(yù)測顯示,2020 年時全球 50% 的搜索將是語音搜索。那些語音搜索的內(nèi)容,網(wǎng)上都能找到答案,但關(guān)鍵是怎樣給整個互聯(lián)網(wǎng)安上一個大腦,使它能夠聽得懂我們說的話?否則就算互聯(lián)網(wǎng)有答案,如果它聽不懂我們語音搜索時說的是什么,也還是不知道怎么回答我們 “給我放首 Justin 的歌” 之類的問題 —— 盡管 Justin 的歌就在網(wǎng)上。
而 Mosaix 正是想在 “讓互聯(lián)網(wǎng)聽懂我們說的話” 這個轉(zhuǎn)變過程中扮演關(guān)鍵角色。Mosaix 的長期目標(biāo)是未來某一天,人們能以更方便的模式?—— 自然語言、或自然語言+屏幕交互 ——?接觸真正的、全新的、你直接說話它就能聽懂的互聯(lián)網(wǎng)。
這個任務(wù)當(dāng)然非常艱巨,誰也無法保證成功,但就像勞逆和 Sam 在采訪結(jié)尾時說的,“夢想總是要有的,萬一成功了呢?”
作者:硅谷密探,微信公眾號 ID : guigudiyixian
本文由 @硅谷密探 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來源于網(wǎng)絡(luò)
語言,人類最奇妙的進(jìn)化之一,但是語言的多樣性也很難使人工智能進(jìn)行邏輯操作,就拿中國的各地方言來說,就很頭疼了,你總不能一竿子打死,全說普通話吧?相對的,方言是中國傳統(tǒng)特色之一,在將來如何讓人工智能聽懂方言才是頭疼之處。
現(xiàn)在的人工智能還在做語意理解,再搜索匹配的事?看空人工智能