老羅的TNT工作站,到底前景如何?
只要語(yǔ)音交互會(huì)成功,那TNT是一定會(huì)來(lái)的。
2018年5月15日老羅發(fā)布了一款TNT(Touch And Talk)的工作站,然后每隔一段就有消息爆出,比如:
改變世界的TNT終于被你們笑話死了。
拋開具體某個(gè)案例,這類產(chǎn)品的未來(lái)究竟會(huì)如何?
蓋茨的感嘆
蓋茨先生8/17在領(lǐng)英上推薦了一本書,同時(shí)寫下了這樣的一段文字:
In the early days of Microsoft, I felt like I was explaining something completely foreign to people when I would talk about our business plan. They didn’t understand how a company built entirely around software could be profitable.
(在微軟的早期階段,當(dāng)談到商業(yè)計(jì)劃時(shí),我感覺(jué)自己一直在向人解釋特別陌生的東西。人們不理解為什么一個(gè)完全基于軟件的公司可以盈利。)
蓋茨先生說(shuō)的這類事情一直重復(fù)發(fā)生,在互聯(lián)網(wǎng)早期(2000年前后)其實(shí)我們也不理解基于一種免費(fèi)的產(chǎn)品如何構(gòu)建商業(yè)模式。
每種創(chuàng)新模式之所以難以理解核心在于其往往要依賴于幾個(gè)大膽假設(shè),而這些大膽假設(shè)本身非常難以求證真?zhèn)?,從正反兩個(gè)方面都可以獲得無(wú)數(shù)的證據(jù),然后基于這些假設(shè)又要做推理,最終才是結(jié)論。
這樣的一個(gè)過(guò)程,不是單純的生意機(jī)會(huì),所以明白不難,但認(rèn)同會(huì)比較困難。
我們可以比較下羅老師的TNT工作站和長(zhǎng)租公寓:
長(zhǎng)租公寓的理解方式可以是:北京有1000萬(wàn)外來(lái)人口,總計(jì)需要租房800萬(wàn)間,市場(chǎng)總共有的房間是500套,所以這是一個(gè)供不應(yīng)求的市場(chǎng)。因此只要能把握房源,建立品牌,那盈利比較確定。(房屋數(shù)字和盈利數(shù)字都可以進(jìn)一步精確化和測(cè)算,當(dāng)前數(shù)字是我隨便寫的)這樣一來(lái)從商業(yè)機(jī)會(huì)的角度看就非常明顯,即容易明白也容易認(rèn)同。
相比之下,TNT工作站上理解起來(lái)就繁雜很多,要理解TNT工作站需要的是:人們需要更便利的交互方式,當(dāng)前語(yǔ)音技術(shù)已經(jīng)成熟到這個(gè)地步,只要加上良好的設(shè)計(jì),那就提供更好的體驗(yàn)。所有這些需要一款新的硬件做載體,因此需要這款產(chǎn)品。
后者麻煩的是,需要的判斷點(diǎn)特別多:需要理解技術(shù)的成熟度,需要知道設(shè)計(jì)本身可以帶來(lái)的價(jià)值,需要知道有多少人愿意為此買單。但真具有顛覆性的其實(shí)是后者,前者只不過(guò)是風(fēng)險(xiǎn)不同的各種生意。至少?gòu)倪@個(gè)點(diǎn)來(lái)看,老羅是值得尊敬的,他在做一些真正有創(chuàng)造性的東西。
說(shuō)到底還是語(yǔ)音交互
拋開具體某款產(chǎn)品不論,TNT工作站這類產(chǎn)品究竟成立與否最終取決于語(yǔ)音交互落地的深度。
當(dāng)前的形態(tài)(各種音箱上的播歌、控制外設(shè)等)可以看成是語(yǔ)音交互的初級(jí)階段,也可以看成是第一個(gè)支點(diǎn),隨著應(yīng)用的深化,那各種深度應(yīng)用形態(tài)必然會(huì)不斷出現(xiàn)。(電腦的第一個(gè)支點(diǎn)是用來(lái)計(jì)算的,然后經(jīng)過(guò)字處理、游戲、上網(wǎng)等階段后,最后已經(jīng)是一種無(wú)所不能的通用設(shè)備。)
眼下看語(yǔ)音交互的發(fā)展從層次上看至少要經(jīng)歷兩個(gè)階段:
第一個(gè)階段就是現(xiàn)在Echo所展示的。通過(guò)語(yǔ)音來(lái)做播放控制,播放的內(nèi)容可以是音樂(lè)、FM、兒歌、天氣、路況等。具體的產(chǎn)品形態(tài)可以是音箱(有屏+無(wú)屏)、故事機(jī)、鬧鐘、電視、盒子、游戲玩具、智能燈等。
第二個(gè)階段則是應(yīng)用深化的階段,這在Echo上也有一定苗頭,比如購(gòu)物會(huì)被整合到語(yǔ)音交互里來(lái)。如果語(yǔ)音交互真的可以用于購(gòu)物,那為什么不可以用于辦公,為什么不可以用于IM等。只要產(chǎn)品基數(shù)夠,那每種嘗試就都足以收集自己的反饋,然后迭代發(fā)展。這個(gè)時(shí)候產(chǎn)品的形態(tài)反倒是會(huì)收斂,越重的應(yīng)用越需要比較強(qiáng)大的硬件做支撐。而所有現(xiàn)在的嘗試?yán)锩?,最有可能成為這種通用型產(chǎn)品的基礎(chǔ)的還是智能音箱,智能音箱天生就不是音箱而是一款智能通用設(shè)備的基礎(chǔ)。
如果第二個(gè)階段全面展開,那設(shè)備會(huì)分為淺層應(yīng)用設(shè)備和深層應(yīng)用設(shè)備。比如電燈,那需要的還是1-3輪對(duì)話來(lái)做基本的控制,這就是淺層應(yīng)用設(shè)備。但帶屏的音箱等承載的應(yīng)用就會(huì)非常復(fù)雜,電腦上的很多事都需要重做一遍(老羅所看到的機(jī)會(huì))。
這時(shí)候的智能音箱也會(huì)進(jìn)一步分化,從價(jià)格上也可以看出這種劃分?,F(xiàn)在的智能音箱上,巨頭往往主打便宜以啟動(dòng)市場(chǎng)。但下面則會(huì)分化,比如有的人可能會(huì)考慮集成NAS的功能,有的人可能會(huì)考慮集成路由器的功能等。
最終設(shè)備的銷量也會(huì)因?yàn)檫@種應(yīng)用深度的不同而不同:
- 在淺層應(yīng)用階段,智能音箱的銷量可能更像傳統(tǒng)的音箱,每年的上限在3~4千萬(wàn)臺(tái)。
- 在深層應(yīng)用的階段,智能音箱則可能突破垂直品類的限制,然后逼近電腦的量級(jí),最終超越電腦的量級(jí),達(dá)到每人一個(gè)的程度(逼近手機(jī)的量級(jí),手機(jī)很多時(shí)候一個(gè)人有兩個(gè))。
有意思的事情是,很多時(shí)候大家把眼下的銷量看成是判斷語(yǔ)音交互發(fā)展的根據(jù),其實(shí)這是有問(wèn)題的。當(dāng)前的銷量只是語(yǔ)音交互發(fā)展的結(jié)果,而語(yǔ)音交互成立與否只與這種交互是否真的便利有關(guān)。銷量和使用頻次只與應(yīng)用的深度和體驗(yàn)有關(guān)。
當(dāng)前行業(yè)的真正瓶頸
當(dāng)前語(yǔ)音交互在技術(shù)上并沒(méi)有瓶頸,但在落地上有。
沒(méi)技術(shù)瓶頸說(shuō)的是NLP上顯然的限制并不是語(yǔ)音交互的真實(shí)瓶頸。我們絕大多數(shù)的操作其實(shí)可以在三輪交互以內(nèi)完成,這在當(dāng)前技術(shù)水平所能支持的范圍以內(nèi)。實(shí)際的應(yīng)用場(chǎng)景上也不真的需要一個(gè)開放的無(wú)所不能的語(yǔ)音助理(電影里演的那樣)。
不管是從數(shù)據(jù)還是使用習(xí)慣來(lái)看,也不存在語(yǔ)音交互習(xí)慣不成立的問(wèn)題,當(dāng)前落地的真正瓶頸其實(shí)是“內(nèi)容”太少和落地太麻煩。
人們主要的時(shí)間其實(shí)是被手機(jī)占據(jù)著,而語(yǔ)音交互設(shè)備能做的事太少,只能局限在播放音樂(lè)等幾個(gè)領(lǐng)域。這時(shí)候就特別需要“內(nèi)容”的出現(xiàn)。這里的內(nèi)容不單是指“影視”“音樂(lè)”的進(jìn)一步加多,也包含羅老師想挑戰(zhàn)的TNT,包含視頻通話,包含對(duì)其它設(shè)備的控制等。
從這個(gè)角度看,語(yǔ)音交互的第一個(gè)戰(zhàn)場(chǎng)就是家里。對(duì)決的兩方是:在家里隨著應(yīng)用的深化語(yǔ)音交互設(shè)備PK手機(jī),兩者搶奪家里的用戶時(shí)間。
落地太麻煩則是個(gè)純粹技術(shù)問(wèn)題,當(dāng)前打造一款語(yǔ)音設(shè)備產(chǎn)品的周期太長(zhǎng),通常要6個(gè)月以上。主要問(wèn)題還不是經(jīng)常說(shuō)的NLP甚至ASR,核心在于和聲音相關(guān)的部分。不同硬件有不同結(jié)構(gòu),有不同的聲學(xué)特征,需要不同的麥克風(fēng)陣列,所有這些問(wèn)題都可以解決,但往往會(huì)拉長(zhǎng)周期。這時(shí)候需要的是Android一樣的系統(tǒng),當(dāng)年那么多手機(jī)廠商存在,核心的一個(gè)原因就是Android這樣的系統(tǒng)拉低了打造一款手機(jī)的門檻。
當(dāng)一個(gè)真的屬于語(yǔ)音交互的Android出現(xiàn)后,那這個(gè)行業(yè)的發(fā)展速度可以進(jìn)一步加快,產(chǎn)品的品類也會(huì)進(jìn)一步加多。
小結(jié)
只要語(yǔ)音交互會(huì)成功,那TNT是一定會(huì)來(lái)的。即使不是馬上,本質(zhì)上也為時(shí)不遠(yuǎn)。
#專欄作家#
琢磨事,微信公眾號(hào):琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)源于網(wǎng)絡(luò)
tnt如果是定位在工作站的話,語(yǔ)音交互對(duì)工作效率的提升并不明顯,因?yàn)榇蟛糠值墓ぷ鞫际菄?yán)謹(jǐn)?shù)?,更多是書面上的東西,口語(yǔ)并不嚴(yán)謹(jǐn)。未來(lái)一定會(huì)有大幅度提升工作效率的方法,但不會(huì)是通過(guò)語(yǔ)音交互。tnt要是能往娛樂(lè)游戲方向發(fā)展的話,還是比較有搞頭的