日本久久午夜不卡免费，一色屋成人精品视频在线，暖暖免费日本视频，国产色视频一区二区三区，国产三级国产精品国产国在线观看，亚洲精品无码专区在线观看，18精品久久久无码午夜福利，国内精品视频一区国产

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

讓機器像人類一樣多模態(tài)交互，會是物聯(lián)網(wǎng)的勝負(fù)手嗎？

腦極體

2018-04-18

2 評論 7606 瀏覽 30 收藏

13 分鐘

“AI of Things”在等待的，可能不僅是語音交互，而是耳目鼻口耳協(xié)同工作的多模態(tài)AI交互。

技術(shù)這個事情，很多時候不是一蹴而就的。

更多時候，是大家先看到了一個東西非常美好，結(jié)果左發(fā)展右發(fā)展也發(fā)展不起來，在吃瓜群眾們興奮地送上一首《涼涼》之后，搞不好哪天卻突然一個勝負(fù)手拋出來，一切又都不一樣了。

曾經(jīng)的移動通訊、觸屏交互莫不如是，今天的3D打印、VR說不定也在重復(fù)這個套路。更明顯的可能是物聯(lián)網(wǎng)。這個我們念叨了好多年，雖然也一直在發(fā)展，但始終沒有大熱的技術(shù)，到底在等待什么呢？

等待AI？但是音箱刮過一陣語音交互的風(fēng)潮之后，IoT設(shè)備搭載語音控制模塊也火了起來。可是直到今天，我們好像發(fā)現(xiàn)物聯(lián)網(wǎng)還是那個物聯(lián)網(wǎng)，基本沒什么變化。

讓我們往更深層開個腦洞，“AI of Things”在等待的，可能不僅是語音交互，而是耳目鼻口耳協(xié)同工作的多模態(tài)AI交互。

你不溫柔，我不主動：為什么我們始終遠(yuǎn)離IoT？

首先我們要搞懂一件事：為什么給設(shè)備聯(lián)網(wǎng)的方案推行了這么多年，我們身邊，包括工業(yè)和工程領(lǐng)域，真正用到的物聯(lián)網(wǎng)設(shè)備還是沒有多少？

答案在于，光給機器設(shè)備聯(lián)網(wǎng)是沒用的。你家的桌椅板凳又不想聊微信逛淘寶看快手，它們要網(wǎng)作甚？

人最終需要的是服務(wù)，所以設(shè)備僅僅聯(lián)網(wǎng)是沒用的，聯(lián)網(wǎng)之后必須能干點什么才行。這就需要兩件事情：

人與設(shè)備可交互；
設(shè)備能夠感知到人的需求。

在觸屏、鍵盤和手機集成遙控模式，都被證明太麻煩之后，物聯(lián)網(wǎng)開始把目光投向了能夠提供自然交互與感知能力的AI。

機器能夠聽懂人類說話，并且產(chǎn)生對話并提供服務(wù)，似乎某種意義上從源頭解決了物聯(lián)網(wǎng)設(shè)備缺乏實際價值的尷尬。于是我們見到了越來越多搭載語音交互平臺，能夠?qū)崿F(xiàn)對話的物聯(lián)網(wǎng)設(shè)備。從電視、冰箱到家居設(shè)備，再到各種終端不勝枚舉。

但實踐下來發(fā)現(xiàn)，這種模式問題還是不少：比如語言控制不如屏幕控制那么精準(zhǔn)，很多時候會誤判指令和錯誤喚醒，比較語言充滿了不確定性；再比如，語音交互的物聯(lián)網(wǎng)設(shè)備還是缺乏主動服務(wù)的能力，只是換了操作方式而已，用戶體驗沒有本質(zhì)提升。

僅僅是“能聽”，并且還經(jīng)常聽錯的物聯(lián)網(wǎng)設(shè)備，就像是兩個人談戀愛，其中一方從來不看你，不會知冷知熱、噓寒問暖，還經(jīng)常搞錯對方的意思，那另一方當(dāng)然表示我懶得理你…

目前來看，把按鈕換成了語音命令平臺，隱藏的不確定性太多，而實際價值太少，很難成為物聯(lián)網(wǎng)爆發(fā)的真正依托。

這種“你不溫柔我不主動”的人機關(guān)系究竟怎么改變呢？

答案也許是讓機器能夠聽和說之外，還要能看，能感覺，甚至能將五感聯(lián)系到一起進(jìn)行思考。

感知到交互：機器的五感俱全

所謂“模態(tài)modality”，是德國生理學(xué)家赫爾姆霍茨提出一種生物學(xué)概念。即生物憑借感知器官與經(jīng)驗來接受信息的通道，比如人類有視覺模態(tài)、聽覺模態(tài)等等。

后來這個概念引申到人文科學(xué)領(lǐng)域，成為哲學(xué)和文學(xué)上的一種話語批評方式；而來到機器人和計算機科學(xué)領(lǐng)域，就成了機器與物理世界聯(lián)系的通道。

假如我們把“模態(tài)”通俗地理解為感官，那么智能音箱就是只具備聽覺模態(tài)的物聯(lián)網(wǎng)設(shè)備，而加載AI分析能力的攝像頭可以視為視覺模態(tài)的物聯(lián)網(wǎng)設(shè)備。把聽覺、視覺甚至更多模態(tài)組合到一起，多模態(tài)物聯(lián)網(wǎng)也就誕生了。

事實上，在AI研究當(dāng)中多模態(tài)轉(zhuǎn)換是非常普遍的課題。比如一個很出名的AI研究方向是讓智能體根據(jù)看到的某張圖片來生成文字（也有看到文字生成圖片和視頻的），這就是讓AI模型完成在視覺和語義之間的模態(tài)轉(zhuǎn)換。

運用到物聯(lián)網(wǎng)設(shè)備當(dāng)中，今天主要的AI感知模態(tài)有三種：

語音交互，包括語音指令控制、語義理解、多輪對話、NLP、語音精準(zhǔn)識別等領(lǐng)域；
機器視覺，包括自然物體識別、人臉識別、肢體動作識別等；
傳感器智能，包括AI對熱量、紅外捕捉信號、空間信號的閱讀與理解。

把這三種東西融合在一起，物聯(lián)網(wǎng)設(shè)備就可以在單純的能聽會說之外，同時還用攝像頭觀察、用傳感器判斷。而比較前沿的多模態(tài)感知研究當(dāng)中，還包括機器嗅覺，機器觸覺和情緒理解等內(nèi)容。

我們在等待的下一代物聯(lián)網(wǎng)設(shè)備，很可能訣竅就是把這些模態(tài)給揉在一起，完成從多模態(tài)感知到多模態(tài)交互的體驗。用一句我們十分熟悉的話說，就是要讓機器身上的五感“生態(tài)化反”…

今天讓人樂觀的多模態(tài)交互型IoT

又能聽，又能看，又有傳感器的設(shè)備，聽上去似乎有點過分樂觀了。但好在綜合了較多采訪與觀察之后，我們發(fā)現(xiàn)今年確實是值得為多模態(tài)物聯(lián)網(wǎng)設(shè)備樂觀一下的時候。

可以看到，很多雙模態(tài)交互，甚至多模態(tài)混合交互的解決方案都在從實驗室里走出來，甚至已經(jīng)可以在我們生活中看到。這些解決方案更重要價值是作為案例，可以讓更多企業(yè)、開發(fā)者和垂直行業(yè)看到多模態(tài)物聯(lián)網(wǎng)的可復(fù)制價值。

舉例來說，離我們最近的多模態(tài)AI交互技術(shù)投射在物聯(lián)網(wǎng)設(shè)備上，大概就是用機器視覺技術(shù)進(jìn)行嘴唇識別，來分離語音交互指令。我們可以看到很多實驗室和科技公司，都在嘗試用機器視覺來讀取說話人的唇語和動作，從而判斷每個聲音指令的來源。

這種技術(shù)已經(jīng)在國內(nèi)被運用到地鐵售票解決方案中，通過機器視覺來識別買票人，從而在地鐵站的嘈雜環(huán)境中完成語音售票。

另一個我們能看到的例子是空調(diào)。在一些新的智能空調(diào)解決方案中，空調(diào)會在語音交互的基礎(chǔ)上通過機器視覺來判斷用戶的位置，提供智能送冷，并且會結(jié)合傳感器判斷屋內(nèi)溫度和濕度，提供更精準(zhǔn)的環(huán)境方案。

同樣是在家電上，今年電視背后的AI平臺戰(zhàn)打得風(fēng)生水起，把機器視覺技術(shù)引入電視成為了新的趨勢。通過機器視覺來讓電視觀察屋內(nèi)照明情況、用戶與電視的距離，電視可以主動調(diào)節(jié)屏幕光線強度，輸出比較護眼的模式。還有的AI應(yīng)用是讓電視在觀察到兒童看電視后主動開啟童鎖。

在日常生活之外，多模態(tài)交互設(shè)備也在應(yīng)用于工業(yè)設(shè)備中。比如通過給機器設(shè)備搭載機器視覺+傳感器提供安全警告，以及利用機器視覺+故障信號的方式判斷設(shè)備問題等。

把不同信號模態(tài)整合在一起，實現(xiàn)設(shè)備的多維感知，今天正在以比較快的速度來到應(yīng)用市場。

高精度判斷用戶命令，輸出主動服務(wù)；提供實時化、彈性化的體驗，可以說是AI帶來的多模態(tài)交互技術(shù)放進(jìn)物聯(lián)網(wǎng)世界中的一張鬼牌。

當(dāng)然了，還是有幾道難關(guān)…

按照慣例，最后我們還是要正視任何技術(shù)都存在不足。剛剛有一點萌芽的多模態(tài)交互+物聯(lián)網(wǎng)當(dāng)然也不例外。

最核心的一個問題，是我們到底靠什么實現(xiàn)多模態(tài)協(xié)同？

目前來看，無論是家電還是工業(yè)設(shè)備，實現(xiàn)多模態(tài)混合的主要方式還是把不同的傳感源輸入到設(shè)備處理中心，啟動一定程序來開啟相應(yīng)服務(wù)。

換句話說，AI模型本身是沒法理解多模態(tài)信號的，只是不同的算法啟動不同的開關(guān)而已。這種“偽AI多模態(tài)”的設(shè)備也不是不行，只是在實時化和復(fù)雜的推理判斷上會有心無力。

解決方案可能是一種叫做“多模態(tài)深度學(xué)習(xí)”的技術(shù)，讓AI智能體本身能夠理解多模態(tài)信號，從算法本身就容納聽覺、視覺、傳感信號進(jìn)行統(tǒng)一思考。這樣可以保證設(shè)備高度實時化，并且可以讓設(shè)備進(jìn)行多模態(tài)協(xié)同學(xué)習(xí)，真正地“聰明”起來。

這要求在算法上對多維度數(shù)據(jù)的各自表示、融合、對齊有新的突破，今天我們還只能等待學(xué)術(shù)界的好消息。

另外一個問題，是今天的多模態(tài)交互缺少有效的開發(fā)平臺，開發(fā)者和企業(yè)很難復(fù)制這一模式，來進(jìn)行獨立的物聯(lián)網(wǎng)解決方案開發(fā)。當(dāng)然，目前來看這應(yīng)該僅僅是個時間問題。

與之相對應(yīng)的，是在缺乏行業(yè)標(biāo)準(zhǔn)、開發(fā)基礎(chǔ)的前提下，今天開發(fā)一個多模態(tài)物聯(lián)網(wǎng)項目需要大量的人才成本和綜合開發(fā)成本。并且缺少芯片、專用傳感器等后端硬件的支撐。這個領(lǐng)域國內(nèi)有一些芯片和算法公司，但似乎大部分處在做PPT的畫餅階段。

綜合來看，AI帶來的多模態(tài)想象力，大概確實可以完成一些物聯(lián)網(wǎng)很早就希望實現(xiàn)的東西。但方興未艾的產(chǎn)業(yè)局勢，還需要巨頭搭建平臺、優(yōu)質(zhì)案例出現(xiàn)、開發(fā)者路徑明確等幾個環(huán)節(jié)才能開啟下一輪風(fēng)口。

但無論如何，耳聰目明的機器，已經(jīng)在跑步過來的路上了……

本文由 @腦極體原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Pixabay，基于 CC0 協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App