如何設(shè)計一個語音技能?
編輯導(dǎo)語:在我們的日常生活中,語音技能其實無處不在??萍嫉牟粩喟l(fā)展使我們的生活變得越來越方便,很多時候通過說話便能讓機(jī)器代替我們?nèi)プ鲆恍┦虑?,這是語音技能給我們的生活帶來的便捷之處。那么,如此便利的語音技能是如何設(shè)計出來呢?
2016年,“互聯(lián)網(wǎng)女皇”、KPCB合伙人瑪麗·米克爾有過一個預(yù)判:“語音拐點(diǎn)已經(jīng)到來,在2015年智能手機(jī)銷量下滑之后,Echo銷量或?qū)Ⅱv飛?!倍酉聛淼氖聦嵰豺炞C女皇寓言的正確性。
在之后不久,國內(nèi)智能音箱也迎來了爆發(fā)式增長,2018年國內(nèi)智能音箱出貨量突破2000萬臺,2019年國內(nèi)出貨量達(dá)到4589萬臺之多。
作為智能音箱,其核心就是語音能力,也就是要能和用戶進(jìn)行語音交互,而語音交互的核心是音箱能聽到、聽懂、理解、執(zhí)行并反饋,而這其中到底能做哪些事就涉及到音箱上有多少個技能,此處的技能可以約等于APP上所說的功能。
接下來,我們一起探索下如何設(shè)計一個語音技能。
一、從發(fā)散到收斂
有時候要想說明白一件事情,最好的方式就是對比。為了方便理解語音技能的特點(diǎn),我們就拿APP的功能來對比,也就是語音交互和觸控交互的對比。
首先我們先來看觸屏操作,大家可以稍微回想下自己平時在APP上的觸屏操作,幾乎都是通過點(diǎn)擊某些按鍵進(jìn)行跳轉(zhuǎn),依次選擇進(jìn)入下一級或者原路返回,對吧?所以概括來說觸屏操作是:
- 在有形狀、有顏色、有文字、有震動等引導(dǎo)下的觸覺交互;
- 觸控交互是一個選擇題,在多個可控區(qū)域中選擇自己想要的,并點(diǎn)擊;
- 觸控交互無法選擇開發(fā)者沒有提供的選項;
- 大部分觸控是怎么通過點(diǎn)擊選擇過來的,依然可以通過點(diǎn)擊回去。
所以我們可以概括為觸控交互是一個樹狀結(jié)構(gòu),從一個節(jié)點(diǎn)到另一個節(jié)點(diǎn)的可視化交互,如下圖所示。
而語音交互卻很不同,首先,初期的智能音箱沒有屏幕,甚至很多設(shè)備僅僅有一個很簡單的閉麥指示燈,我們就拿查天氣來舉例子吧。
- 用戶通過喚醒詞來讓設(shè)備處于聆聽狀態(tài),準(zhǔn)備接收用戶的語音指令;
- 用戶要查詢當(dāng)前位置的天氣,可以怎么說?說天氣行不行?當(dāng)前的天氣哪?現(xiàn)在的天氣、最近的天氣、今天天氣怎么樣、會下雨嗎、有霧霾嗎、出門需要帶傘嗎等等,就普通話而言就有很多種問法;
- 用戶如果需要查詢非當(dāng)前位置天氣哪?比如差旅目的地、家人所在地,需要怎么說?是時間+地點(diǎn)+天氣,還是天氣+時間+地點(diǎn)都可以?
- 我們看屏幕一次可以看7或者14天天氣,語音要怎么實現(xiàn)?我繼續(xù)詢問說“下一天”嗎?
在此種情況下,我們喚醒智能音箱后,用戶的疑惑可概括為:
- 我什么時候可以說了?說早了,它有半句沒聽到,說晚了,它又閉麥了;
- 我們要說什么?每次只問個天氣嗎?是不是要說具體某天某地的天氣;
- 怎么說是它能懂的?我用倒裝句是否能行?我加個語氣詞哪?
這些都需要用戶去摸索和學(xué)習(xí),夸張點(diǎn)說的話,用戶是閉著眼睛在操作設(shè)備。此時我們再看語音交互時:
- 在沒有形狀、沒有顏色、沒有文字(會有部分上下文提示)、沒有震動等引導(dǎo)下的交互;
- 語音交互可能是一個簡答題,也可能是一個選擇題,但是簡答題占大多數(shù);
- 語音交互可以選擇開發(fā)者沒有提供的選項,當(dāng)然選擇以后也是大概率是無法執(zhí)行的。
所以我們可以概括為語音交互是一個單點(diǎn)呈收斂,多點(diǎn)成樹狀的結(jié)構(gòu),從很多發(fā)散的說法、話術(shù)收斂到某個意圖、動作的節(jié)點(diǎn),然后進(jìn)入后續(xù)流程,如下圖所示:
所以當(dāng)我們做一個語音技能時,要先判斷有哪些支持的能力,然后還要同時判斷哪些不支持,而支持的能力有哪些種說法,這個部分如何收斂到有限個節(jié)點(diǎn),而至于其他不能支持的,現(xiàn)在大部分都是走default狀態(tài)回復(fù):不好意思,沒聽懂。
二、從樹狀到圓環(huán)
在上面的分析中,我們說到過語音交互是一個單點(diǎn)要收斂、多點(diǎn)成樹狀的結(jié)構(gòu),但是語音技能中還存在網(wǎng)狀、跳躍結(jié)構(gòu)的可能性。我們先來看APP上觸控購物的例子:
- 篩選商品
- 加入購物車
- 收銀臺確認(rèn)支付
- 支付成功
在其中任何一步,都可以點(diǎn)擊返回去向上一步,比如當(dāng)你準(zhǔn)備支付時,女朋友說要再加個東西,你關(guān)閉收銀臺、反饋購物車,然后可以繼續(xù)挑選商品,這是一個路徑往復(fù)的軌跡。
但是當(dāng)我們把購物做成一個語音技能,那么:
- 當(dāng)語音詢問用戶是否要付錢時,用戶是否可以說我還要買點(diǎn)別的?
- 如果用戶可以說,那么是否直接去尋找商品,還是需要詢問用戶當(dāng)前訂單該如何處理?
- 如果用戶說把已經(jīng)在購物車的商品刪掉,或者修改數(shù)量,或者修改收貨地址,又該如何處理?
所以我們會發(fā)現(xiàn),上述例子是不同節(jié)點(diǎn)間的跳躍、環(huán)形交互,也就是說一個節(jié)點(diǎn)的多種說法,在另一個節(jié)點(diǎn)是否允許生效的問題,而如果允許生效,則會出現(xiàn)環(huán)形。
但是語音中的環(huán)形流程并不友好,會有增加用戶記憶負(fù)擔(dān)、整個流程因為對話頻次過多而顯得冗長等問題,所以我們設(shè)計時還是盡量規(guī)避又長、又多的環(huán)形結(jié)構(gòu)。
如下圖所示,假設(shè)A為挑選商品,B1為購物車,C1為APP的收銀臺支付頁面?;疑珵锳PP的主線正向流程,紅色弧線表示A的話術(shù)在C1生效,而當(dāng)C1允許A的話術(shù)生效時,便會涉及到走兩條紅色的虛直線方案,還是走藍(lán)色的虛直線方案。
當(dāng)然,我們可以限制某些節(jié)點(diǎn)的說法只能在某些意圖范圍內(nèi),比如如上截圖,A的說法對C1生效,但是在C2~6全部不生效;如果用戶在C2~6說了A的話術(shù),我們可以統(tǒng)一回復(fù)并告知用戶當(dāng)前僅支持某些說法即可。
當(dāng)然了,此時是可以退出整個流程,類似我們在APP中某個流程中,通過系統(tǒng)殺掉進(jìn)程一樣。
三、從獨(dú)立到共生
剛才我們通過將觸控與語音對比來闡述語音技能的從發(fā)散到收斂、從樹形到圓環(huán),那么下一個問題是:語音交互和觸屏交互除了對比之外,是否可以融合?
答案是肯定的,現(xiàn)在市面上有很多帶屏音箱(市場份額如下圖),其中語音交互和觸屏交互就已經(jīng)開始融合,比如用戶說我要看周星馳的電影,那么多部周星馳的經(jīng)典電影,不能一個一個播報加詢問啊。
所以需要讓用戶看電影海報后可以用語音來選擇,這個不贅述(很多智能電視也已經(jīng)支持)。
(圖片來源:https://www.sohu.com/a/423616757_120868906)
那我們看上圖會發(fā)現(xiàn)還是有很多無屏音箱,此時怎么和觸控融合哪?那就是涉及到觸控的不一定是音箱,可以是我們的手機(jī)APP。
首先,音箱的激活還是需要手機(jī)APP的,畢竟連接你家WiFi時用語音輸入密碼不是很方便。BD部分、四十部分的大有人在。所以我們可以考慮在手機(jī)APP上做一些更加符合觸控交互的事情,比如剛說配網(wǎng)這類的設(shè)置。
這類在手機(jī)APP上的操作有共性可循:一些低頻但是關(guān)鍵信息的輸入,比如購物例子中涉及收貨地址、電話號碼、綁定支付信息,媒體娛樂的賬號資產(chǎn)、會員充值等,這些的修改的頻率都很低,同時還可讓用戶自己設(shè)定一些快捷指令。
四、腦洞示例
說了這么多,我們可以開下腦洞,最近看到盲盒賣菜的新聞,感覺特別適合做一個語音技能。
我們先看如果在APP上做的主線步驟:
- 用戶要先選擇某個盲盒(可能有不同價位、葷素配比的差異)
- 選擇后加入購物車
- 確認(rèn)數(shù)量等屬性信息(比如份數(shù))
- 確認(rèn)是否加購
- 拉起APP收銀臺選擇支付方式
- 確定支付及支付結(jié)果展示
首先我們先看哪些步驟在語音交互中是可以被優(yōu)化、調(diào)整的,例如(為闡述簡單,示例會忽略很多實際數(shù)據(jù)和現(xiàn)實因素,比如運(yùn)費(fèi)):
- 我們將蔬菜盲盒減少為兩種:純素和葷素結(jié)合(當(dāng)然也可以按照大小包不同量來分),一次來減少語音介紹及用戶的記憶成本;
- 下單后不支持添加商品和修改數(shù)量,畢竟是買菜,配的盲盒就是一天一家三口的均碼(請勿ETC自動抬杠);
- 收獲地址需要用戶在手機(jī)APP上提前設(shè)置;
- 支付方式需要用戶在手機(jī)APP上提前設(shè)置,比如免密支付、聲紋支付;
- 允許用戶在APP上設(shè)置快捷指令,比如:“喚醒詞+盲盒買菜大份”來對應(yīng)葷素搭配的蔬菜盲盒、“喚醒詞+我要吃盲盒”來對應(yīng)蔬菜盲盒的純素版。
通過以上調(diào)整,我們的用戶可以通過一句話來完成盲盒買菜的主鏈路,其中標(biāo)號和2主要是修改節(jié)點(diǎn)數(shù)量(減少)和節(jié)點(diǎn)間的關(guān)系(一層且線性),標(biāo)號3、4、5主要是用手機(jī)APP來對低頻關(guān)鍵信息設(shè)置,也是對節(jié)點(diǎn)數(shù)量的優(yōu)化,同時也讓節(jié)點(diǎn)關(guān)系更加簡單。
五、總結(jié)
通過以上分析,當(dāng)我們在做一個語音技能時:
- 可以先考慮如果它是個觸屏技能,此時要有什么能力和節(jié)點(diǎn)鏈路;
- 哪些節(jié)點(diǎn)和鏈路是語音交互需要支持的、哪些不需要;
- 哪些最好是通過手機(jī)屏幕、音箱屏幕來完成的;
- 需要語音支持的節(jié)點(diǎn)中,每個節(jié)點(diǎn)的泛化說法有哪些;
- 哪些節(jié)點(diǎn)間是可以任意跳轉(zhuǎn)并繼續(xù)流程的,哪些節(jié)點(diǎn)是跳轉(zhuǎn)需要詢問的(因為此時跳轉(zhuǎn)就是從新開始了),哪些節(jié)點(diǎn)是不能跳轉(zhuǎn)的。
#專欄作家#
代成龍,人人都是產(chǎn)品經(jīng)理專欄作家,智能硬件創(chuàng)業(yè)公司產(chǎn)品狗,從視頻巨頭公司到玩智能硬件的公司,繼續(xù)產(chǎn)品設(shè)計工作。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!