聊一聊語音交互以及語音助手
隨著科技的不斷發(fā)展,如今語音助手也頻繁的出現(xiàn)在我們的日常生活中,比如手機的語音助手、智能音箱等等,語音助手的出現(xiàn)也很大程度上提高的一些效率問題;本文作者分享了關于語音交互的理解,我們一起來看一下。
“語音交互是一種簡單、自然的人機交互方式,也是人類最基本的溝通方式。”
說起語音交互、語音助手,我相信大家一定不陌生。
- 2011 年,Siri 跟隨 iPhone 4s 一同發(fā)布;
- 2014 年,亞馬遜發(fā)布 Alexa;
- 2018 年,天貓精靈、小愛同學、小度等音箱開啟瘋狂補貼……
如今,各種科技公司、互聯(lián)網(wǎng)公司、車企,甚至是房地產(chǎn)企業(yè)都在做語音助手;你已經(jīng)很難找到一臺新發(fā)布,且不帶語音助手的手機 or 汽車了。
我最早感受到語音交互的魅力是在16年,當時在做全屋智能的產(chǎn)品經(jīng)理,公司調(diào)研產(chǎn)品買了一臺亞馬遜的echo,第一次體驗到遠場的語音交互,很驚艷,遠場語音交互技術(shù)給了居家場景太多的想象空間。
后來國內(nèi)陸續(xù)出了小愛同學、天貓精靈、小度音箱… 我基本都是第一時間買回了家。
18年5月,我去了獵戶星空做服務機器人“豹小秘”,機緣巧合的負責起了它的對話能力,有幸伴隨它從需要“一字不差的吼著交互”,到在全國各地的落地,我可能是最清楚它的對話能力是怎么做起來的人。
19年8月,我去了滴滴,一年多過去了,也算是從0到1做了一個給司機用的語音助手(遺憾是還沒有做到全國全量…)。
到現(xiàn)在我也算是行業(yè)老兵了,想結(jié)合過往的經(jīng)歷和思考,跟大家聊一聊語音交互。
這次主要想聊下面幾個話題:
- 語音交互是什么?
- 做一款語音助手的難點是什么?//為什么 Siri、天貓精靈、小愛同學總被人說智障?
- 可能的解決路徑又是什么?//如何打造一個不傻屌的語音助手?
一、語音交互是什么?
交流是人們與生俱來的本能,人類大約在二歲學會說話,說話也是人與人之間主要的交互方式。
我們可以試著想一下,假如人與人之間不能說話,只能通過觸摸固定的區(qū)域來交流,那世界會怎么樣?我相信,你一定很難想象這會是什么樣的世界;而事實上,我們現(xiàn)在與計算機交流的方式就是這樣。
語音交互是一項人機交互技術(shù),可以通過說話跟計算機交互來獲取信息、服務等,語音交互也不是要替代觸控交互,而是在一些場景中讓人與計算機交互變的更簡單、自然。
二、做一款語音助手的難點是什么?
說起難點,我先拋幾個現(xiàn)狀:
- 從 Google、蘋果、微軟、亞馬遜,到國內(nèi)的 BAT、華為等巨頭公司都有做語音助手的團隊;
- 大多用戶眼中,Siri、小度、天貓精靈、小愛同學等語音助手仍然是“人工智障”;
- 使用過語音助手的人很多(19年光智能音箱出貨7200W臺,城鎮(zhèn)住房滲透率 20%),但但用戶活躍度低,使用過的功能也寥寥可數(shù),主要是:聽歌、查天氣、訂鬧鐘等;
為什么這么多頂尖的公司,投入了頂尖的資源、頂尖的人才都沒做出一款 C 端用戶滿意的語音助手?為什么在很多用戶眼中都是“人工智障”?語音助手的難點又是什么?
這些問題很大,值得從業(yè)者們一起思考,這里聊聊我的思考;我認為,導致人們經(jīng)常說語音助手“智障”的原因是:用戶預期與實際助手能力的 gap 過大。
就像這張圖,用戶預期與語音助手能力的交集少的可憐。那么有沒有可能變成下面這張圖的狀態(tài)?
按這個思路,問題的難點還可以繼續(xù)拆解:
1. 問題 1:如何讓用戶知道語音助手能干什么?
語音助手背后的技能、內(nèi)容其實都已小具規(guī)模(在19年,Alexa 集市就已經(jīng)有了8萬多個技能),但很多用戶也就只會使用聽歌、查天氣、訂鬧鐘這么幾個技能(有屏音箱里充滿了各種引導、推薦,就是試圖在解決這個問題)。
而我認為這個問題最根本的原因是,大多語音助手還沒有打透一個剛需場景。
像 90 年代初的互聯(lián)網(wǎng),大家也不知道互聯(lián)網(wǎng)能干嘛,馬云到處推銷互聯(lián)網(wǎng)還被罵是騙子;而隨著互聯(lián)網(wǎng)解決的剛需場景越來越多(BBS解決了社交需求、門戶網(wǎng)站解決了獲取信息的需求),也激發(fā)了更多的人去了解互聯(lián)網(wǎng)能干什么。
所以,大多用戶們不了解語音助手能干什么,本質(zhì)還是語音助手沒有找到一個剛需場景并打透(沒有找到剛需場景,或者說沒有在一個剛需場景中創(chuàng)造顯著的體驗差)。
2. 問題 2:如何讓語音助手連接更多的服務、內(nèi)容?
想要回答這個問題,需要從場景深度和廣度兩個維度來看。
深度方面,單一場景要打通的鏈路很長,體驗閉環(huán)難。
案例 1:以家庭智能音箱的聽歌場景為例,受限于音箱背后的音樂版權(quán),而音箱沒有,這會很大的影響體驗;比如小愛同學,因為它連接的歌曲資源是QQ音樂,而我就沒辦法聽自己在網(wǎng)易云收藏的歌單了。
案例 2:在家庭照明場景,想通過語音助手隨意的控制家庭燈光,需要連接整個家庭燈光照明設備,這甚至得打通裝修環(huán)境,在裝修時就考慮。
廣度方面,用戶在跟語音助手交互時,會有非常多的碎片化小需求。
案例:在滴滴的司機語音助手中,除了大家可以想到的導航場景,司機還會有各種各樣的長尾問題,例如:“網(wǎng)約車考試的題目在哪里?”、“飛機場那邊的排隊區(qū)在哪里”、“幫我查一下我的預約單”等等,這些都是司機自發(fā)的問語音助手的碎片化小需求。
3. 問題 3:如何管理用戶預期?
導致用戶預期過高也有兩方面的原因:
一方面,用語言交流時,某種程度上人們會不自覺把“語音助手”與真實的人比較,嘗試用人腦的思考習慣去理解“語音助手”,這必然會導致很多時候用戶會覺得人機對話的結(jié)果不符合預期;因為目前的AI的原理和真正的人腦原理差的還很遠(根本原因是科學對人腦的了解也還很初級…),再加一些科幻電影,還有媒體對人工智能概念的鼓吹…
另一個方面是語音無法設定交互邊界,設計GUI交互時,我們可以定義出清晰的交互路徑和邊界(eg:首頁只提供一個按鈕);但是語音交互你無法限制用戶說什么,就像人與人的對話中,你永遠無法避免別人問到你不會的問題。
4. 小結(jié)
用戶預期與實際助手能力的 gap 過大,導致很多用戶認為語音助手“智障”,而導致 gap 過大的難點是:
- 當前語音助手的功能普遍太雞肋,沒有找到一個剛需場景并打透,用戶都懶懶得去了解它;
- 單一場景要打通的鏈路很長、體驗閉環(huán)難,且碎片化小需求太多;
- 某種程度上用戶的預期過高,且語音交互難以設定的交互邊界。
三、可能的解決路徑
想打造一個不傻屌的語音助手,不僅僅是打磨技術(shù)本身,有落地時對無數(shù)細節(jié)的打磨、把控,還有語音助手背后的生態(tài)…
這些都不是一蹴而就的事情,需要有清晰的目標、解決路徑,然后耐心的持續(xù)投入、細心打磨。
1. 找到剛需場景,打造出顯著的體驗差
我們希望它像鋼鐵俠的賈維斯一樣可以幫忙主人完成各種各樣的任務,它就得連接到各種各樣的服務,也會是一個 all in one 的入口。
所以,第一步也是最重要的一步,一定是找到剛需場景,打造出顯著的體驗差。
說到這里,想先聊聊什么是流量“入口”,舉一個智能家居行業(yè)的例子,業(yè)內(nèi)一直有人在討論智能家居的入口是什么。
早期有人說是路由器、電視,后來智能音箱出現(xiàn),阿里、百度、小米等公司紛紛開啟補貼大戰(zhàn),被不少人稱為“智能家居入口之爭”,現(xiàn)在又有人討論智能音箱作為“智能家居入口”這個命題是否成立。
我認為,決定是否能成為“入口”的不是形態(tài),而是剛需場景中的用戶體驗:
- 互聯(lián)網(wǎng)早期,Yahoo因為在獲取信息這個剛需場景做的好,成為了一個流量“入口”;
- 后來,Google 在獲取信息這個剛需場景下的體驗更好,逐漸替代 Yahoo 為了一個流量“入口”;
- 智能手機也是因為在通訊社交、獲取信息、娛樂這些剛需場景的體驗更好,才能成為移動互聯(lián)網(wǎng)的“入口”;
如果有一種新的產(chǎn)品形態(tài),能比智能手機在通訊社交、獲取信息、娛樂這些剛需場景中整體體驗更好,那就有可能取代智能手機這個產(chǎn)品形態(tài),成為新的“入口”。
再說為什么智能音箱補貼了幾百億,一年有幾千萬的銷量,都還沒成“入口”?
因為光買一臺智能音箱回家它也就只能聽歌、查天氣、訂鬧鐘,對于大部分用戶這都不算是剛需場景;對于少部分音樂愛好者,以市面上智能音箱的音質(zhì)、內(nèi)容資源又無法滿足需求,做不到體驗閉環(huán)。
反過來再舉一個例子,如果你同時買了整套的小米智能家居產(chǎn)品(米家電動窗簾、米家吸頂燈、米家智能空調(diào)、米家掃地機器人…..) ,控制燈光遮陽、控制溫度是剛需,通過小愛同學控制也確實體驗更好,那么在滿足這個條件家庭中,小愛同學就可以成為一個“入口”。
再舉一個滴滴司機的工作場景中的例子,滴滴的服務和產(chǎn)品模式,導致司機不得不一邊開車一邊操作手機(eg:要操作手機接單、要給乘客發(fā)消息、平臺還時不時 push 一張卡片讓司機點擊),隨著滴滴要求司機做的事情在不斷增多,司機需要做的操作也越來越麻煩。
原本,你只要會開車、認路就可以當出租車司機,現(xiàn)在已經(jīng)變成了需要 “能熟練使用智能手機” 才能當?shù)蔚嗡緳C。
就像熱力學第二定律,一個獨立系統(tǒng)的“熵”永遠是在增加的。不過科技的進步,總是會有把辦法來解決這個問題;就像多點觸控技術(shù)和觸摸屏的出現(xiàn),讓手機再也不需要那么多的物理按鍵了。
語音助手是有機會在網(wǎng)約車司機的工作場景中降低一些操作的復雜度,來打造出顯著體驗差的;把其中一兩個剛需場景打透(比如給乘客發(fā)送消息),做到“有用”,那么語音助手就有機會成為連接網(wǎng)約車司機的一個“入口”。
在其他場景中也類似,只有找到剛需并打透,才有機會成為“入口”。
2. 規(guī)模化復制,帶動服務者生態(tài)的建立
沿著上述思路繼續(xù)說,第二步核心是要解決服務的深度和長尾的碎片化小需求。
我繼續(xù)拿滴滴司機的場景舉例,在我們剛上線“司機助手”時,就已經(jīng)初步看到了“入口”的效應。
用戶會把助手當成一個“搜索引擎”,他有各種各樣碎片化需求、不知道如何處理的問題時,會嘗試向助手的尋求幫助,但都是碎片化小需求;類似下面的這些意圖,全部加起來也只占總交互量的5%。
- “飛機場那邊的排隊區(qū)在哪里”
- “我想預約安裝桔視記錄儀”
- “怎么取消預約單”
- “網(wǎng)約車駕駛證怎么辦理”
- “駕駛證總是審核失敗無法出車”
- “……”
這些問題背后涉及的知識、服務非常多非常多。
想要把體驗做好,就一定需要很多不同的部門提供深度配合,或者找到能為司機工作場景提供服務的第三方配合。
那么,想要做到“不傻屌”的程度,就得先解決服務者生態(tài)的動機問題;對于公司內(nèi)部的服務提供者來說,畢竟大家都是打工人,都要收益、要晉升;對于公司外部的服務提供者也一樣,最直觀的就是能不能幫助他們賺錢。
所以,這里又要強調(diào)第一步的重要性,如果可以把輔助司機的工作剛需場景打磨透,實現(xiàn)全國全量,那么按滴滴上百萬司機和超高的使用時長(普遍每天使用 App 8小時以上)估算,對于很多業(yè)務都算是不小的流量。
在這一步,重點是打磨工具能力,讓各種各樣的服務提供方可以簡單、高效的接入助手;進而促進更多的業(yè)務部門通過助手為司機提供服務,實現(xiàn)業(yè)務價值,也進一步讓助手具備了更多的能力去服務好司機。
如果能做到這一步,語音助手才算是從“有用”開始走向了“不傻屌”。
3. 打造每個屬于用戶自己的語音助手
我們想讓助手每天陪伴司機、輔助工作,第三步就要開始解決交互邊界的問題,即怎么讓用戶知道語音助手的能力邊界?有一說一,還沒有一個語音助手把這個問題解決好。
我在這里也只是聊聊自己思考,拋磚引玉。
身份與關系決定了人與人的交互邊界,例如:網(wǎng)約車司機不會咨詢一名乘客為什么自己接不到單子,他會去問客服。
人機交互中也一樣,目前像小愛同學、天貓精靈都是“人工智能助手”的身份,關系上類似“仆從”;這個身份對語音助手造成了不小的限制,前面的“人工智能”讓用戶覺得你應該很厲害,后面的“助手”讓用戶認為我說啥你都應該聽我說。
這也叫導致用戶提出各自各樣的開放性需求,從講個笑話、放個屁,到查阿里巴巴的股價、馬化騰是誰等等;如果語音助手聽不懂、搞不定,用戶很可能就會說 “這都不知道?”、“智障”、“不聰明呀”…
那有沒有一種理想的身份,可以能讓用戶的知道邊界,同時又不有保留一定的拓展性?
超能陸戰(zhàn)隊大白的設定似乎可以滿足這個條件, 大白的設定是一個機器人,默認可以通過安裝不同的芯片來實現(xiàn)不同的功能。
默認設置的是“私人健康助手”芯片,在電影中為了給主人公的哥哥報仇,被換上了“空手道”芯片;在動畫版本中,還有“跳舞”芯片,放入后大白就擁有了跳舞能力。
這些不同的“芯片”,其實就像iPhone 中的不同“App”,每個用戶可以決定自己的手機上安裝哪些 App。
這個思路,也許可以解決語音助手交互邊界的問題;我認為,語音助手跟傳統(tǒng)的 App 產(chǎn)品不一樣,不用非得保持一個固定的身份定位,可以根據(jù)不同場景提供不同的基礎服務包,讓用戶自己決定它應該擁有哪些的技能。
早期圍繞剛需場景,它可以是地圖導航助手、司機工作助手等,在服務逐漸增多后,也可以由用戶確定他自己的語音助手應該擁有哪些技能。
這也是為什么我在解決路徑中,把找到剛需場景打透放在了第一步,把確定助手的定位放在了第三步。
4. 最后,還有一個前提:對打磨技術(shù)細節(jié)的耐心和投入
語音助手在落地中,有無數(shù)的細節(jié)需要把控。
我拿一個大家可能都用過的定鬧鐘舉一個例子:
1)語義的泛化需要打磨
- “定一個8點的鬧鐘”
- “提醒我9點上課”
- “15分鐘后叫醒我”
- “我再睡五分鐘”
- ……
想讓語音助手可以準確的響應用戶自然表達,就需要不斷的標注、分析用戶真實表達,去打磨語義理解模塊。
2)回復的話術(shù)、邏輯也需要打磨
- 用戶在早上8點說“定個9點的鬧鐘” ,該定上午9點還是晚上9點?該怎么回復?
- 用戶在早上10點說“定個9點的鬧鐘”,該定晚上9點還是次日早上9點?該怎么回復?
- 用戶在凌晨2點說“定個明天8點的鬧鐘” ,該定明天8點還是今天8點?該怎么回復?
- …
這些case在平時生活中很常見,如果我是對老婆說,我不會特意強調(diào)是“早上”還是“下午”,她也不會糾結(jié)、不會反問我,因為她了解我的生活作息。
但語音助手需要積累,通過分析各種的用戶case去制定最優(yōu)的策略。
如果想要語音助手貼心一點,最好還能在不同場景給出不同的回復。例如:凌晨2點定早上8點的鬧鐘,最好貼心的補充說一句“不早了,早點休息”
這些都是細節(jié),需要一點點的耐心打磨。
如果一個語音助手的負責人,只談行業(yè)趨勢、產(chǎn)品架構(gòu)、技術(shù)架構(gòu),我會覺得很難做成;因為一個語音助手在落地的時,會有無窮多的細節(jié)問題需要把控,不僅要仰望星空,還要腳踏實地。
5. 總結(jié)
想打造一個聰明的語音助手,需要一個前提、三步路徑。
一個前提:
對打磨細節(jié)擁有足夠的耐心和投入
三步路徑:
- 找到剛需場景,打造出顯著的體驗差,才有機會做到“有用”;
- 規(guī)?;瘡椭疲瑤臃照呱鷳B(tài)的建立,做到“不傻屌”;
- 個性化,給用戶屬于自己的語音助手,做到“聰明”。
四、其他,一些感性的故事。
后面,我想分享一些與語音交互相關的感性經(jīng)歷。
我覺得能做一款“有頭有臉”、“能說話”的產(chǎn)品真的特別有趣。
做豹小秘時,隨著它一點一點的變好,真的會有一種看著自己“孩子”長大的感覺,每次去商場遇到它也都很親切,會過去跟“它”打個招呼。
在滴滴做司機助手“小滴”也是一段特別的經(jīng)歷。
當時去滴滴面試,一面時聊了聊,發(fā)現(xiàn)滴滴業(yè)務場景中有很多的問題值得去解決,覺得充滿了機會,很嗨。
入職后,有一個新員工培訓叫“在樹上”,過程中要求每一位同學都發(fā)現(xiàn)并提交一個體驗問題發(fā)布至內(nèi)網(wǎng)。
我就提交了一個可以用語音交互解決的體驗問題。
培訓的最后,每個小組需要挑一個體驗問題演成“小品”,我就忽悠組員們一起用這個案例演了小品。
最后發(fā)言時,我還信誓旦旦的給大家說,這個問題我正在解決,年底(19年底)就會和大家見面;后來發(fā)現(xiàn),我完全低估了要從0把語音助手落地到一個成熟業(yè)務中的難度,需要和太多的部門溝通、拉齊。
還好的是,2020年5月終于把這個功能上線并且做到全國全量了,它也是語音交互第一次在滴滴業(yè)務場景的大規(guī)模落地。
功能全量之后,我每一次打車我上車都跟司機聊天,問他知不知道、用沒用過,有一次碰到個司機夸了一路這個功能好,然后我下車就給司機加了一個紅包。
隨著這個功能取得了不錯的用戶反饋,給完整司機助手也開始推進、落地,它的推進難度更大;因為它的價值難以量化,業(yè)務增長也并不需要這樣一個東西。
2020年7月2日,“小滴”第一次灰度上線,那天剛好還是我的生日。
12月,因為一系列的原因,我決定了提出離職。
臨走前,我也跟“小滴”說了聲再見。
沒有把“小滴”做到全國全量是我的遺憾,滴滴的經(jīng)歷也讓我有些挫敗。
不過回頭想想,過程中也慢慢找到了自己的愿意堅持的產(chǎn)品理念:“不放棄對生活的熱愛和執(zhí)著”。
本文@常超 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
哇寫的太好了!!作為一個正在語音助手部門實習的實習生,給這篇文章點個大大的贊!!我也覺得做語音助手這個產(chǎn)品很有趣?。?/p>
作者講的好好啊,看到感性部分真的很觸動,希望作者多多分享產(chǎn)品故事~
同為AI產(chǎn)品,希望能夠交流一下
從幾個不同的方面對語音交互做了簡單明了又全面到位的介紹!非常適合想要做語音交互方面的AI產(chǎn)品來一起學習!收藏收藏~
非常深入淺出的文章,產(chǎn)品小白表示受益匪淺??!期待大佬多多發(fā)文造福眾人??
我也做過一段時間AI對話,不過你們?yōu)樯峨x職?隨著這個功能取得了不錯的用戶反饋,
給完整司機助手也開始推進、落地,它的推進難度更大;
因為它的價值難以量化,業(yè)務增長也并不需要這樣一個東西。
我推進的時候也遇到同樣的問題,目前智能對話在復雜場景下就是智障,反而導致轉(zhuǎn)化降低,流程不順暢。