你見過的很多可能都是假的人工智能
這篇文章來自我在哈爾濱工業(yè)大學(xué)的學(xué)弟、機(jī)器學(xué)習(xí)從業(yè)者Jiasheng Tang。希望能跟大家科普一些關(guān)于人工智能創(chuàng)業(yè)的常識(shí)。
內(nèi)容起源于一次小范圍的對(duì)話:作為投資公司負(fù)責(zé)投資/調(diào)研人工智能相關(guān)企業(yè)/市場(chǎng)的人,如何判斷什么樣的企業(yè)值得投資?人工智能在當(dāng)下是很熱,無數(shù)的科技公司都會(huì)強(qiáng)調(diào)自己是一家基于智能的公司??谌魬液?、濤濤不絕地談起我們使用了人工智能技術(shù)balabala……所以我想談?wù)勅绾卧谶@樣的對(duì)話甚至新聞稿中識(shí)別相關(guān)內(nèi)容的可靠性。
首先,眼下任何公司談?wù)撊斯ぶ悄艿幕A(chǔ)是大數(shù)據(jù) + 算法,先有大數(shù)據(jù)計(jì)算能力最重要
隨著存儲(chǔ)成本的逐步降低,對(duì)于很多公司來講,無論是采購硬盤還是購買云存儲(chǔ)服務(wù),獲取并保存海量數(shù)據(jù)并不是特別困難的一件事?,F(xiàn)在聲稱做人工智能的公司,也一定會(huì)強(qiáng)調(diào)他們有大數(shù)據(jù)的積累。擁有大量數(shù)據(jù)在近些年已經(jīng)是一件開始常態(tài)化的事情,真正的問題是如何把數(shù)據(jù)用起來。那么基于這個(gè)假設(shè),就可以一步一步地追問下去:
- 你們數(shù)據(jù)量到底有多大?每日產(chǎn)出多少個(gè)T的數(shù)據(jù)?線上都有會(huì)收集哪類日志?
- 有幾個(gè)的集群去處理、最大的集群有多少臺(tái)機(jī)器?
- 上線之后,使得哪些業(yè)務(wù)有提升?
- 一個(gè)常規(guī)的流程(從數(shù)據(jù)采集到新模型上線)能做到t+幾?
- ?……
以上問題大概就能了解這個(gè)公司在數(shù)據(jù)收集和數(shù)據(jù)計(jì)算上的能力,沒有相關(guān)處理能力的公司/團(tuán)隊(duì)可以在這一輪就再見了。
因?yàn)檫@個(gè)只是錢的問題。
其次,建立在基礎(chǔ)的數(shù)據(jù)處理能力之上的,是算法
很多公司就到這一步開始平庸(僅僅能對(duì)數(shù)據(jù)做簡單的分析),這也給了大家一個(gè)印象:國內(nèi)的公司數(shù)據(jù)水平只停留在數(shù)據(jù)分析(甚至不如)。
如果說計(jì)算能力還可以用錢堆到一個(gè)還不錯(cuò)的規(guī)模,那么算法能力,就完全要靠人。 深入地做數(shù)據(jù)分析以至于應(yīng)用相關(guān)的人工智能技術(shù)(或者幾乎可以替換地叫機(jī)器學(xué)習(xí)技術(shù)),是具備一定的門檻的。僅僅是以呈現(xiàn)報(bào)表、統(tǒng)計(jì)相關(guān)指標(biāo)更多的是一種業(yè)務(wù)能力的體現(xiàn)。針對(duì)于公司的算法能力,可以問如下的問題(還是遞進(jìn)順序):
- 如何根據(jù)分析的結(jié)果進(jìn)行建模?
- 如何使用算法去解決問題?(這個(gè)問題有點(diǎn)太專業(yè)了…
- 有能力在線上服務(wù)中使用非常復(fù)雜的算法么?(線上服務(wù)中能夠使用多復(fù)雜的算法?)
- ……
對(duì)于在這一步開始扯人工智能、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)等術(shù)語試圖“群魔亂舞”的時(shí)候,首先,保持警惕,堅(jiān)持問出以上幾個(gè)問題;更進(jìn)一步,如果有開始大談奇點(diǎn)論的問題的話,那就可以轉(zhuǎn)身走人了。
還有一點(diǎn)是屬于業(yè)務(wù)層面的事情:是否有使用機(jī)器學(xué)習(xí)算法的必要性。對(duì)于創(chuàng)業(yè)公司,這一點(diǎn)要格外注意。大公司往往有這個(gè)能力甚至閑心讓人工智能處處使用(AI everywhere)。然而對(duì)于創(chuàng)業(yè)公司,衡量人力物力投入、產(chǎn)出、開發(fā)周期、效果、甚至業(yè)務(wù)底線是很關(guān)鍵的。如果一家仍在創(chuàng)業(yè)期的公司開始考慮讓非必要業(yè)務(wù)強(qiáng)行使用機(jī)器學(xué)習(xí),是很危險(xiǎn)的信號(hào);機(jī)器學(xué)習(xí)應(yīng)用在創(chuàng)業(yè)公司的第一目的應(yīng)該是:讓主業(yè)務(wù)(比如對(duì)投資人負(fù)責(zé)的業(yè)務(wù))保持增長。
所以我一直持有一個(gè)觀點(diǎn):排除廣告、圖像、語音類業(yè)務(wù)之外,只有相對(duì)成熟的公司才具備條件(包括充足的人力、良好的數(shù)據(jù)積累、計(jì)算能力、業(yè)務(wù)規(guī)模足夠等)盤點(diǎn)自己的各項(xiàng)業(yè)務(wù),尋找依靠算法的可行提升點(diǎn)。人工智能應(yīng)該是規(guī)劃,不是追求熱點(diǎn)。
最后,算法之上的,是優(yōu)化
這個(gè)有點(diǎn)涉及到問題的本質(zhì):我們?yōu)槭裁凑勅魏喂径家獡肀?、或者說規(guī)劃智能?其實(shí)這還真的不全是因?yàn)橐鲇疲ㄐ?/p>
所謂擁抱智能其實(shí)歸根結(jié)底是一個(gè)更好的解決方案:用一類技術(shù)為公司提供無數(shù)種可能性。我們看到滴滴做智能派單、智能路徑規(guī)劃;看到阿里做個(gè)性化推薦;看到DeepMind曾經(jīng)為谷歌數(shù)據(jù)中心省了數(shù)億美元…這類技術(shù)更本質(zhì)上講,都是優(yōu)化技術(shù)的具體呈現(xiàn),它包括:
- 常見機(jī)器學(xué)習(xí)算法的立足點(diǎn)凸優(yōu)化/非凸優(yōu)化(深度學(xué)習(xí)完全是非凸優(yōu)化)
- 經(jīng)濟(jì)學(xué)領(lǐng)域活躍的博弈論
- 管理科學(xué)中的運(yùn)籌學(xué)
- 組合優(yōu)化(很多參加過計(jì)算機(jī)競(jìng)賽選手的最愛之一)、在線優(yōu)化等……
優(yōu)化,在以前曾經(jīng)是很多行業(yè)高端的BI;人工智能,在這一次的浪潮里面,其實(shí)是新瓶裝了優(yōu)化這個(gè)醇香的酒。
怎樣讓自己開始具備一定專業(yè)的判斷力?
首先,這應(yīng)該是一種能夠透過交流、PR稿、媒體報(bào)道等內(nèi)容,看到背后虛實(shí)的判斷力。而不是泛泛而談的人工智能概念與倫理問題、奇點(diǎn)臨近等。
因?yàn)樵谶@里不想涉及到過多深入的領(lǐng)域知識(shí),考慮到相關(guān)人工智能必要性的背景知識(shí),推薦大家可以看一本書–吳軍博士的《數(shù)學(xué)之美》(定位在了解+一點(diǎn)的專業(yè)性)。哪怕這些年的更新更復(fù)雜的技術(shù),本質(zhì)也沒有脫離“數(shù)學(xué)”問題的范疇。 (《智能時(shí)代》我本人并沒有看過,不過也有人推薦)
當(dāng)下(2017年初)很靠譜的細(xì)分方向
智能相關(guān),兩個(gè)角度來判定到底是不是靠譜(這個(gè)靠譜的閾值有點(diǎn)高)地在做事:
- 對(duì)于人工智能,如果一個(gè)團(tuán)隊(duì)或者公司強(qiáng)調(diào)他們是做優(yōu)化的,那十有八九是靠譜的——這是看待所做事情的角度;
- 對(duì)于智能硬件,如果一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)或者公司強(qiáng)調(diào)他們是做gpu、FPGA、手機(jī)等硬件/端的解決方案(并且有真實(shí)的demo),也是靠譜的——涉及到計(jì)算能力的未來發(fā)展。
最后,希望這篇文章能夠給想具備產(chǎn)業(yè)判斷能力的人提供一個(gè)視角。
作者:Jiasheng Tang
來源:微信公眾號(hào)【劉言飛語】
不錯(cuò)