AIoT的語(yǔ)音技術(shù),究竟如何落地?

2 評(píng)論 8759 瀏覽 39 收藏 17 分鐘

AIoT融合AI技術(shù)和IoT技術(shù),除了實(shí)現(xiàn)技術(shù)的革新,其主要技術(shù)的應(yīng)用和真正落地也是該領(lǐng)域的重點(diǎn)問題。

是新的技術(shù)和生產(chǎn)工藝(例如,早期的汽車)通過被應(yīng)用和被應(yīng)用而獲得改善,之后在獲得進(jìn)一步的應(yīng)用和采用,進(jìn)而創(chuàng)造出正反饋或者收益遞增的效用?!都夹g(shù)的本質(zhì)》,布萊恩·阿瑟

上篇我們講到了AIoT并非泛泛而談的口號(hào),他是有自身的用戶價(jià)值和商業(yè)價(jià)值邏輯。從這篇開始我們要講講在AIoT用到的主要技術(shù),也是我入門(keng)以來的梳理和沉淀,若有問題也歡迎交流。

我認(rèn)識(shí)在AI領(lǐng)域這樣強(qiáng)技術(shù)領(lǐng)域,了解其技術(shù)原理和技術(shù)邊界,結(jié)合市場(chǎng)需求,才能更高效地輸出產(chǎn)品服務(wù)。

本篇文章核心內(nèi)容有以下幾點(diǎn):

  • 首先,我們先從AIoT的產(chǎn)業(yè)鏈入手,從宏觀維度對(duì)整個(gè)AIoT產(chǎn)業(yè)有個(gè)宏觀認(rèn)知;
  • 其次,這篇文章會(huì)先聚焦于語(yǔ)音技術(shù)在AIoT領(lǐng)域的技術(shù)原理和落地產(chǎn)品服務(wù)方法。
  • 其余幾大個(gè)技術(shù)模塊我們會(huì)在后續(xù)的文章中陸續(xù)更新。

一、AIoT產(chǎn)業(yè)鏈

AIoT產(chǎn)業(yè)鏈主要包括以下幾個(gè)部分:

  • 上游:硬件:芯片廠商、通信模塊等;軟件:AI技術(shù)、IoT技術(shù)
  • 中游:操作系統(tǒng)、App、云端服務(wù)
  • 下游:渠道(線上 / 線下)

AIoT之語(yǔ)音技術(shù)原理和落地

AIoT產(chǎn)業(yè)鏈

從上圖我們可以大致了解整個(gè)AIoT產(chǎn)業(yè)全貌,是一個(gè)軟硬通吃,涉及模塊最全的行業(yè)。所以作為產(chǎn)品經(jīng)理,在這個(gè)領(lǐng)域,有很大的發(fā)揮空間。

二、AIoT產(chǎn)品都做些什么

不同類型的AIoT產(chǎn)品對(duì)技術(shù)理解要求不同,如阿里云IoT、騰訊云IoT其業(yè)務(wù)目標(biāo)是要做生態(tài),做水電煤,主打PaaS層的輸出,直接服務(wù)開發(fā)者,所以這對(duì)產(chǎn)品的技術(shù)能力要求就非常高,一般得有幾年相關(guān)開發(fā)經(jīng)驗(yàn)。

而做前端交互體驗(yàn)的,跟用戶直接接觸的體驗(yàn)層產(chǎn)品對(duì)技術(shù)要求就不那么高了,結(jié)合產(chǎn)業(yè)鏈越往下游對(duì)產(chǎn)品對(duì)技術(shù)要求越低。結(jié)合上面的產(chǎn)業(yè)鏈結(jié)構(gòu)圖可以分為三大塊:

  1. 硬件產(chǎn)品:為整個(gè)終端硬件體驗(yàn)負(fù)責(zé)。需要從硬件定義、設(shè)計(jì)到最后的量產(chǎn)全鏈路環(huán)節(jié)都有深入理解,這塊在這兒不展開說,后續(xù)講到硬件產(chǎn)品再深入聊;
  2. 軟件產(chǎn)品:為整個(gè)IoT軟件服務(wù)體驗(yàn)負(fù)責(zé)。這個(gè)是個(gè)大模塊,再往細(xì)的分有 App產(chǎn)品、系統(tǒng)產(chǎn)品、IoT平臺(tái)產(chǎn)品,如果還有線上渠道,那還有電商產(chǎn)品等;
  3. AI算法產(chǎn)品:為整個(gè)AI體驗(yàn)負(fù)責(zé)。按照技術(shù)鏈路還可以細(xì)分為聲學(xué)前端產(chǎn)品、ASR產(chǎn)品、NLP產(chǎn)品、TTS產(chǎn)品。關(guān)于這塊的技術(shù),下面我們具體展開來說。

AIoT之語(yǔ)音技術(shù)原理和落地

AIoT產(chǎn)品職能與產(chǎn)業(yè)鏈關(guān)系圖

三、AIoT之語(yǔ)音技術(shù)

對(duì)于產(chǎn)品經(jīng)理來說,了解語(yǔ)音技術(shù)主要的技術(shù)點(diǎn),可以:

  • 快速收斂問題,幫助開發(fā)提高定位和修改問題效率;
  • 輸出穩(wěn)定產(chǎn)品,了解技術(shù)原理和邊界,才能快速輸出穩(wěn)定的產(chǎn)品服務(wù)。這個(gè)無(wú)論對(duì)于C端用戶或B端客戶來說都是最基本的需求。

我們這里以用戶使用語(yǔ)音中控設(shè)備控制燈為例(詳情可見以下流程圖):

AIoT之語(yǔ)音技術(shù)原理和落地

語(yǔ)音控制智能家居流程圖

用戶發(fā)出「打開燈」指令,則會(huì)經(jīng)過以下幾個(gè)步驟:

第一步 拾音

根據(jù)使用場(chǎng)景也分為近場(chǎng)拾音(一般3m以內(nèi))和 遠(yuǎn)場(chǎng)拾音(一般3-5m)。這一部分在技術(shù)上稱為聲學(xué)前端

主要原理是通過單mic或mic陣列能準(zhǔn)確獲取到用戶語(yǔ)音信息,為下一步ASR(語(yǔ)音識(shí)別)做準(zhǔn)備,主要包括以下幾個(gè)技術(shù)點(diǎn)(但不限于,整個(gè)鏈路涉及到很多技術(shù)環(huán)節(jié),下面主要將跟產(chǎn)品體驗(yàn)比較相關(guān)的主要技術(shù)點(diǎn)抽離出來):

  • VAD(Voice Activity Detection),語(yǔ)音活性檢測(cè)。使用音頻特征等進(jìn)行分析,確定聲音的開始與結(jié)束點(diǎn)。對(duì)于產(chǎn)品來說經(jīng)常會(huì)遇到某條指令沒有識(shí)別全,比如「打開燈」只識(shí)別到了「打」導(dǎo)致最后沒有命中相應(yīng)技能,無(wú)法完成用戶意圖,這時(shí)候可能就是VAD異常截?cái)鄦栴};
  • AEC(Acoustic Echo Cancellation),回聲消除。如果當(dāng)前設(shè)備在用mic拾音的同時(shí)又在播放音樂等音頻內(nèi)容,那mic會(huì)將這設(shè)備播放出去的聲音再重拾回來,避免再播放出去有回音。對(duì)于產(chǎn)品來說這是考核一個(gè)有待音頻播放功能的智能語(yǔ)音設(shè)備必然考核的體驗(yàn)點(diǎn),比如播放音樂時(shí)經(jīng)常有回音問題,那可能是AEC算法沒做好;
  • BF(Beam Forming),波速成形。用于將單個(gè)方向的語(yǔ)音進(jìn)行增強(qiáng),削弱無(wú)關(guān)的聲音,使得聲音聽起來更加干凈。對(duì)于產(chǎn)品來說這個(gè)是在嘈雜環(huán)境下提高識(shí)別的核心技術(shù)點(diǎn),如果嘈雜環(huán)境里你的產(chǎn)品識(shí)別差,可以從這個(gè)點(diǎn)入手看看。

第二步 ASR(Automatic Speech Recognition)

這一步主要是將前端拾音的語(yǔ)音信息轉(zhuǎn)化成文本信息,將處理的文本信息丟給下一步NLP(自然語(yǔ)言處理)來做處理。主要考核指標(biāo)識(shí)別率和誤喚醒等。關(guān)于這點(diǎn)hanniman老師有做比較深入的講解,這里就不多做說明。

第三步?NLP(Natural Language Processing)

自然語(yǔ)言處理的目的是主要是將文本信息轉(zhuǎn)化成機(jī)器語(yǔ)言,明確用戶意圖,在為下一步,觸發(fā)用戶預(yù)期的意圖做準(zhǔn)備。在產(chǎn)品運(yùn)營(yíng)側(cè)主要會(huì)分為下面幾個(gè)部分:

  • Domain,即所屬領(lǐng)域,如 音樂、智能家居分別都算是一個(gè)領(lǐng)域。領(lǐng)域相當(dāng)于類別,比如我想創(chuàng)景一個(gè)電視控制技能,就先創(chuàng)建一個(gè)電視的Domain;
  • Intent,即意圖,用戶想要讓機(jī)器做的事情。如 以本章節(jié)「打開燈」這個(gè)例子為例,「打開燈」即為用戶的行為意圖,但同樣一個(gè)控制意圖可能有不同的說法,比如「打開燈」可以說「把燈打開」或「燈被打開」這時(shí)需引入一個(gè)東西叫Pattern,他是來解決不同說法或句式的問題,產(chǎn)品運(yùn)營(yíng)人員可以配置幾個(gè)常用的句式或說法,然后通過算法進(jìn)行枚舉和泛化;
  • Slot,即詞槽,在本例中,「打開」和「燈」都是詞槽。

第四步?平臺(tái)轉(zhuǎn)發(fā)

語(yǔ)音廠商IoT平臺(tái)→廠商IoT平臺(tái)→廠商設(shè)備。因?yàn)橹悄芗揖宇I(lǐng)域較為特殊,從用戶維度來看,一個(gè)用戶可能會(huì)有各種不同品牌的智能家居設(shè)備;而從市場(chǎng)維度來看,目前智能家居市場(chǎng)品類繁多,碎片化嚴(yán)重。

以天貓精靈為例,目前已接入了600+品牌。單純用技能方式對(duì)接,不利于廠商運(yùn)營(yíng)管理和用戶端體驗(yàn)。所以大部分語(yǔ)音廠商還會(huì)針對(duì)智能家居做一個(gè)管理平臺(tái)。

經(jīng)過上一步NLP的處理信息傳給語(yǔ)音廠商的IoT平臺(tái),語(yǔ)音廠商的IoT平臺(tái)會(huì)根據(jù)用戶已經(jīng)綁定智能家居品牌和設(shè)備能力,在將這些信息傳給相應(yīng)的三方廠商IoT平臺(tái),最終將控制信息下達(dá)給相應(yīng)的控制設(shè)備,完成整個(gè)控制鏈路。

第五步?TTS(Text To Speech)

顧名思義是將文本轉(zhuǎn)成語(yǔ)音,如果你的中控設(shè)備帶有Speaker,當(dāng)整個(gè)控制鏈路完成后,可以播報(bào)一個(gè)結(jié)果語(yǔ)音來提升整個(gè)產(chǎn)品體驗(yàn),完成體驗(yàn)閉環(huán)。

四、語(yǔ)音技術(shù)*AIoT

以上各項(xiàng)技術(shù)以排列組合的方式我們很容易算出可以提供給客戶25種不同產(chǎn)品技術(shù)方案,而對(duì)于C端用戶產(chǎn)品服務(wù)也不計(jì)其數(shù)。但對(duì)于目前很多公司最大的問題在于:如何在于這「汪洋大?!怪姓业阶约旱囊黄欤ň瓦B空調(diào)都集成語(yǔ)音能力了,很多人都無(wú)法理解)。

以下談?wù)勎覍?duì)語(yǔ)音技術(shù)之于AIoT落地的看法(以下方法對(duì)C和B端同樣適用):

首先,效率,萬(wàn)事以高效為先。一切新產(chǎn)品或新技術(shù)的應(yīng)用的第一優(yōu)先考核指標(biāo)在于相比原先的服務(wù)是否提高效率。什么是高效?高效即做同樣的事情誰(shuí)花的時(shí)間最短。以「打開電視后我想看湖南衛(wèi)視」這個(gè)用戶場(chǎng)景為例,以下是三種不同類型的電視操作路徑對(duì)比:

  1. 傳統(tǒng)電視:遙控器的頻道鍵→左右鍵切換3-4頁(yè)數(shù)(除湖南本省外,其他外省可能把忽然衛(wèi)視放到3、4頁(yè)后)→上下鍵選擇到湖南衛(wèi)視→點(diǎn)擊確定。大概需要操作5-6步;
  2. 智能電視(不帶語(yǔ)音):我的應(yīng)用→電視貓App→搜索湖南衛(wèi)視→點(diǎn)擊確定。大概要操作4步;
  3. 語(yǔ)音電視:一句話「xxx,我要看湖南衛(wèi)視」,甚至可以直接免喚醒詞。只要1步。

其次,成本,要考量在單位時(shí)間內(nèi)所消耗的能量和成本。基于上一點(diǎn)「做同樣事情誰(shuí)花的時(shí)間短」除了這一維度還不夠,因?yàn)樗俣瓤觳⒉淮沓杀镜?,所以還要考量在單位時(shí)間內(nèi)所消耗的能量和成本。

比如,你花了20塊需要2小時(shí),而花60塊錢只能算短到1.5個(gè)小時(shí),明顯性價(jià)比不高。

以集成語(yǔ)音能力的智能空調(diào)為例。目前市面上此類空調(diào)價(jià)位在¥6999~¥9999之間,主打高端市場(chǎng)。而一個(gè)語(yǔ)音模組的價(jià)格在幾十塊左右,這個(gè)成本完全承擔(dān)得起,而且還提升了其議價(jià)空間。

而比如在小家電領(lǐng)域,客單價(jià)普遍比較低的領(lǐng)域,這個(gè)成本可能就有很大的成本壓力了。所以,目前語(yǔ)音模組更廣泛應(yīng)用于大家電如 電視、空調(diào)等。所以除了用戶場(chǎng)景,成本維度也是重要的考慮因素;

最后,影響力,要考慮做這件事對(duì)外部的影響力。即你的產(chǎn)品與用戶/客戶的交互反饋,主要分為積極影響和消極影響:

  • 積極影響力,比如,接近真人的TTS體驗(yàn),自然的人機(jī)對(duì)話體驗(yàn);
  • 消極影響力,比如,前幾個(gè)月的Amazon的Echo鬼聲事件。

可以從定性(滿意度等)和定量(日活、留存等)角度來衡量,但為了方便下面延展,我們可以簡(jiǎn)單的把積極影響力記為正數(shù),消極影響力記為負(fù)數(shù)。

AIoT之語(yǔ)音技術(shù)原理和落地

AIoT產(chǎn)品服務(wù)公式

總結(jié):我把評(píng)判一個(gè)AIoT產(chǎn)品服務(wù)的好壞,結(jié)合三要素,總結(jié)為如圖所示公式:

AIoT產(chǎn)品服務(wù)=效率/成本*影響力

通過這個(gè)公式我們可以很容易得出:一款好的AIoT產(chǎn)品服務(wù)需要具備高效、低成本以及積極影響力,而且這個(gè)服務(wù)會(huì)隨著你的正向影響以乘法疊加的方式增長(zhǎng)。

同理,我們也可以很快得到一個(gè)差的AIoT產(chǎn)品服務(wù)是由什么因素決定的。

為了方便大家理解,我們以上面提到的例子,目前空調(diào)集成語(yǔ)音能力這個(gè)是個(gè)好的AIoT產(chǎn)品服務(wù)嗎?

首先,語(yǔ)音控制相比空調(diào)的物理遙控器確實(shí)是更方便,假設(shè)切換到制冷模式,物理在初始狀態(tài)下要按兩下「模式」鍵,而語(yǔ)音只要一句話就能解決,效率提高50%;

其次,對(duì)于廠商來說,假設(shè)一個(gè)模組成本是¥50,目前帶語(yǔ)音能力的空調(diào)普遍售價(jià)在¥6999~¥¥9999之間,以6999的價(jià)格和35%的毛利率(目前幾家空調(diào)大廠毛利在這個(gè)水平,高端型號(hào)肯定毛利更高)來算差不多只占了1%的成本,完全cover的??;

再來,關(guān)于影響力,先不說語(yǔ)音控制在某些場(chǎng)景效率比遙控器高,用戶買了一個(gè)那么貴的空調(diào),還有語(yǔ)音能力(除了控制,還能問問天氣等),雖然可能平時(shí)基本不咋用,但是至少還有個(gè)炫耀的資本。比如,有客人來,可以很裝13地說「我這空調(diào)可以語(yǔ)音控制哦」,相比不帶語(yǔ)音功能的高端空調(diào),確實(shí)有一定的附加值。假設(shè)以-5~5來做滿意度打分,至少給個(gè)3分吧;

最后,通過公式我們可以算出整個(gè)空調(diào)集成語(yǔ)音能力的AIoT產(chǎn)品服務(wù)分?jǐn)?shù)為150分。從這個(gè)維度來看,空調(diào)集成語(yǔ)音能力是有積極價(jià)值的。

五、小結(jié)

在《技術(shù)的本質(zhì)》中,作者 布萊恩·阿瑟(復(fù)雜性科學(xué)奠基人) 認(rèn)為:

技術(shù),是新的技術(shù)和生產(chǎn)工藝(例如,早期的汽車)通過被應(yīng)用和被應(yīng)用而獲得改善,之后在獲得進(jìn)一步的應(yīng)用和采用,進(jìn)而創(chuàng)造出正反饋或者收益遞增的效用。

目前AIoT行業(yè)還在早期階段,了解語(yǔ)音技術(shù)這個(gè)「新技術(shù)」可以使我們更加從容。祝各位同仁能用這個(gè)「新技術(shù)」創(chuàng)造出更多正反饋或者效益遞增的效用。

 

作者:elek,微信公眾號(hào):萬(wàn)悟互連(ID:iotforall),AIoT產(chǎn)品經(jīng)理。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 感覺都被你寫了

    來自山東 回復(fù)
    1. 哈哈 ?

      來自浙江 回復(fù)