李彥宏:人工智能剛剛走到石器時代,但未來它會像電流一樣普遍

4 評論 4046 瀏覽 2 收藏 35 分鐘

在過去的一兩年里,或許人工智能的消息刷遍了投投朋友們的朋友圈,AI不知何時開始占據(jù)了我們的手機(jī)、汽車以至于家庭。或許你很少能聽到李彥宏講歷史、講產(chǎn)業(yè),實(shí)際上每個互聯(lián)網(wǎng)一線的企業(yè)家都是一名通曉古今的人,時髦的人工智能和歷史變遷怎么結(jié)合?也許你值得看一看。在百度all in人工智能、全力以赴下,隱藏著什么?未來我們的生活將駛向何方?

歷史了解越詳細(xì),未來就看得越透徹

全世界都在為即將到來的人工智能革命感到振奮。這種情緒就仿佛二十多年前我在硅谷親歷互聯(lián)網(wǎng)大潮初起時所感受到的。

2012年,我注意到深度學(xué)習(xí)在學(xué)術(shù)界和應(yīng)用方面都有了突破。比如,用深度學(xué)習(xí)的方法來識別圖像,突然就比以前的任何算法都有明顯提升。這個時候我馬上意識到,新的時代來臨了,搜索將被革新。過去我們用文字搜索,現(xiàn)在可以用語音和圖像進(jìn)行搜索。比如我看到一株不認(rèn)識的植物,拍一張照片上傳搜索,就可以立刻識別出來它叫福祿桐。過去用文字搜索是沒法描述這樣的植物的。不僅是搜索,很多過去不可能的事情現(xiàn)在都可能了。

語音識別能力、圖像識別能力、自然語言理解能力,包括為用戶畫像的能力,這些都是人的最本質(zhì)的智慧能力。當(dāng)計(jì)算機(jī)擁有了人的這些能力時,一場新的革命就會到來。以后速記員和同聲傳譯人員可能會被機(jī)器代替,計(jì)算機(jī)可以做得更好。以后也許不需要司機(jī)了,車自己就可以開起來,更安全,更有效率。在企業(yè)里面,金牌客服可能人人都可以做了,因?yàn)橛辛酥悄芸头?。人工智能對人的這種賦能,超過了以往任何一個時代。工業(yè)革命解放了人的體力,過去一些像搬石頭之類的粗活需要人類自己來干,現(xiàn)在機(jī)器可以替你把更巨大的石頭搬起來。智能革命到來之后,原本很多需要費(fèi)腦子的事情,機(jī)器也可以幫你做。未來20~50年,我們會不斷看到各種各樣的變化,收獲各種各樣的驚喜。

讓我們把時光推至工業(yè)革命以前。

在當(dāng)時的英國,由于紡織機(jī)械帶來低成本產(chǎn)品,傳統(tǒng)的手工紡織業(yè)被擠垮,遭到工業(yè)主和工人的反對,掀起所謂的「盧德運(yùn)動」。珍妮機(jī)發(fā)明者哈格里夫斯多次遭到同行和鄰居的驅(qū)逐。但珍妮機(jī)最終還是推廣開來,助力英國統(tǒng)治全球紡紗業(yè)。而蒸汽火車一開始甚至速度還不如馬車,從而被馬車夫嘲笑。

到了電氣革命時代,歷史再次重復(fù),比如馬可尼在1895年研制出最早的無線電裝置,并且利用這一裝置成功進(jìn)行了遠(yuǎn)距離摩斯電碼通信實(shí)驗(yàn)。他成立無線電報(bào)與信號公司,推動無線電商用。但由于與海底電纜公司的利益相沖突,他想在紐芬蘭設(shè)立無線電報(bào)局的事遭到反對。不過當(dāng)時美國的現(xiàn)代市場體系和技術(shù)偏好已經(jīng)初步建立,所以無線電還是很快發(fā)展起來。

電氣革命與今天的智能革命有一些「基礎(chǔ)質(zhì)料」意義上的類似。與蒸汽動力無法遠(yuǎn)距離傳輸和統(tǒng)一布局不同,電力是一種無限流動的普適能源,正如今天的互聯(lián)網(wǎng)是一種流動的,讓用戶可以隨時接入的基礎(chǔ)資源?!鸽?產(chǎn)業(yè)」正如今天的「互聯(lián)網(wǎng)+產(chǎn)業(yè)」,顛覆了無數(shù)的傳統(tǒng)產(chǎn)業(yè)。

當(dāng)然,電流和智能流只是在比喻意義上可以類比,前者是電子的流動,后者是比特編碼的流動,不是同類事物,但這種類比有助于我們感受問題的關(guān)鍵所在。我們不妨對比一下兩個時代的企業(yè)升級。

當(dāng)電氣流向千萬企業(yè),很多企業(yè)主動尋求升級,雖不是像蒸汽時代那樣抗拒,但同樣困難重重。一百多年前的電力系統(tǒng)十分復(fù)雜。需要在直流電、交流電,不同的電壓、不同水平的可靠性、不同的電力接口以及價格之間做出合理的選擇。直到今天,各國的電壓和接口規(guī)格(插座口)也都沒有統(tǒng)一。和不同電力公司打交道也是個技術(shù)活,否則很可能吃虧,正如今天企業(yè)找互聯(lián)網(wǎng)技術(shù)外包公司時,如果不專業(yè),就會落入陷阱,從編程語言到系統(tǒng)架構(gòu),都有各種令人眼花繚亂的選擇。

如今,尤其是這兩年,人工智能再度呈現(xiàn)技驚世人的技術(shù),這是機(jī)器學(xué)習(xí)技術(shù)的升華版——基于多層計(jì)算機(jī)芯片神經(jīng)網(wǎng)絡(luò)的「深度學(xué)習(xí)」方法。通過多層芯片聯(lián)結(jié),模仿人腦大量神經(jīng)元的網(wǎng)狀聯(lián)結(jié)方式,輔以精妙的獎懲算法設(shè)計(jì)和大數(shù)據(jù),可以訓(xùn)練計(jì)算機(jī)自己從數(shù)據(jù)中高效地尋找模型和規(guī)律,從而開啟了一個機(jī)器智能的新時代。

科學(xué)家們覺得人工智能經(jīng)過這么多年的發(fā)展,到了「終于可以用了」的階段,而它的實(shí)力在我看來,才剛剛開始施展拳腳。

在人工智能時代下,你我都需要做出改變

我無意過分夸大人工智能的作用。

從縱向發(fā)展來說,業(yè)界通常把人工智能分為三個階段:第一階段,弱人工智能;第二階段,強(qiáng)人工智能;第三階段,超人工智能。實(shí)際上,目前所有的人工智能技術(shù),不管多先進(jìn),都屬于弱人工智能,只能在某一個領(lǐng)域做得跟人差不多,而不能超越人類。

對此,我可能比大多數(shù)人都更保守一些。在我看來,人工智能永遠(yuǎn)不會到那一步,很可能連強(qiáng)人工智能都到不了。未來,機(jī)器可以無限接近人的能力,但是永遠(yuǎn)無法超越人的能力。

當(dāng)然,僅僅是無限接近人的能力,就已經(jīng)可以產(chǎn)生足夠大的顛覆性。因?yàn)橛?jì)算機(jī)在有些方面實(shí)在比人強(qiáng)太多了。比如它的記憶能力,百度搜索可以記憶上千億的網(wǎng)頁,其中的每一個字它都記得住,沒有一個人能夠做得到。再比如它的運(yùn)算能力,哪怕是寫詩——打個小廣告,把你的名字輸入手機(jī)百度的「為你寫詩」,敲回車鍵,沒等你反應(yīng)過來,詩就出來了。再厲害的七步神童,也很難達(dá)到這種速度。但是,在情感、創(chuàng)造性等很多領(lǐng)域,機(jī)器是無法超越人類的。

跟我不一樣,技術(shù)界還是很樂觀的。

智能領(lǐng)域的權(quán)威人士都認(rèn)為,在不久的未來,智能流會像今天的電流一樣平靜地環(huán)繞、支持著我們,在一切環(huán)節(jié)提供養(yǎng)料,徹底改變?nèi)祟惤?jīng)濟(jì)、政治、社會、生活的形態(tài)。陸奇稱智能時代的核心本質(zhì)是「knowledge in every system, intelligence in every interaction」(知識無處不在,任何交互都是智能的)。未來世界的人們將像穿衣吃飯一樣享用著人工智能而無所察覺。

有人為人工智能的到來感到焦慮,其實(shí)我覺得大可不必。

在20世紀(jì)初,美國有50%的農(nóng)業(yè)人口,但隨著農(nóng)業(yè)機(jī)械化,現(xiàn)在的農(nóng)業(yè)人口降到4%,而城市化吸收了多余的農(nóng)民。但眼前發(fā)生的事情是不同的,當(dāng)人工智能大規(guī)模進(jìn)入社會后,人類能做的工作它們大部分都可以做,城市不會再有更多的就業(yè)崗位留給人類。通行的美好說法是,人們在常規(guī)工作中被人工智能取代后,可以去從事創(chuàng)造性的工作。問題是創(chuàng)造性的工作不是人人都可以從事的,也不需要那么多的人,如果社會分配制度不改變,一個全部由科學(xué)家和藝術(shù)家構(gòu)成的人類世界幾乎是一場噩夢,這上百億科學(xué)家和藝術(shù)家中的絕大部分注定一生碌碌無為,對社會和自己都毫無用處,且淪入「創(chuàng)造性」的窮困潦倒中。

但這種思維方式總有些不對的地方。人類自古以來為生存而勞作,實(shí)在是迫不得已,工作著是美麗的,但誰都知道,不需要工作的生活更美麗?,F(xiàn)在終于能夠制造出把自己從工作重負(fù)中解放出來的機(jī)器,這是人類文明最偉大的成就,無論如何不應(yīng)該被看作一場災(zāi)難,相反,這可能是人類所面對的前所未有的偉大機(jī)遇,只是,我們需要改變。

跳棋、國際象棋、圍棋后,AI還將進(jìn)擊

AlphaGO和深藍(lán)的邏輯并不一樣,同樣是下棋,但背后的人工智能已經(jīng)實(shí)現(xiàn)再次飛躍。

蒙特卡洛方法就體現(xiàn)了概率學(xué)的精妙。假設(shè),在某個棋局局面下,深度學(xué)習(xí)網(wǎng)絡(luò)給出了三個候選落子辦法A、B、C,以這三個點(diǎn)為根節(jié)點(diǎn),分別往下走子,可以想象成三棵樹,每棵樹還有無數(shù)分支。蒙特卡洛搜索不去窮盡所有分支(窮盡所有是深藍(lán)的做法),而是派出300萬只螞蟻分別從A、B、C出發(fā),每個點(diǎn)100萬只,飛速向樹梢爬(也就是往下黑白棋交替走子直到?jīng)Q出勝負(fù),基本上走200步就會分出勝負(fù)),總有部分螞蟻?zhàn)叩阶罡唿c(diǎn)(也就是決出勝負(fù),假設(shè)螞蟻?zhàn)叩浇K點(diǎn)的情況代表黑子勝,沒走到終點(diǎn)的情況代表白子勝)。

假設(shè)從A點(diǎn)出發(fā)的100萬只螞蟻有30萬只到達(dá)終點(diǎn),從B點(diǎn)出發(fā)的有50萬只到達(dá)終點(diǎn),從C點(diǎn)出發(fā)的有40萬只到達(dá)終點(diǎn),系統(tǒng)就認(rèn)為黑子走B點(diǎn)勝率更高,就會選擇B點(diǎn)。這就是概率學(xué)的取樣算法,相比逐項(xiàng)窮舉法,極大地縮減了計(jì)算量。

為什么派100萬只螞蟻而不是10萬只或者1000萬只?這是根據(jù)計(jì)算機(jī)的計(jì)算能力和對競爭對手的大致估計(jì)來確定的。如果派10萬只螞蟻就可以得到較高勝率,那么派10萬只也可以。在相同時間內(nèi)派出越多螞蟻,對計(jì)算能力要求越高。

除了下棋,人工智能還進(jìn)擊了金融、翻譯、資訊分發(fā)領(lǐng)域。

金融信息可能是最復(fù)雜、最枯燥的信息,一份股轉(zhuǎn)書有兩百多頁,還有大量的年報(bào)、半年報(bào)、研究報(bào)告、公告、反饋意見、盡職調(diào)查結(jié)果……我們不知道,有多少行業(yè)分析師是完全看完這些信息,再做出決策的。也許,不是他們不夠勤勉,而是讀完這些信息已經(jīng)非人力所及。

20世紀(jì)90年代,一個基金經(jīng)理要把市場當(dāng)天產(chǎn)生的研報(bào)、輿情、新聞、交易數(shù)據(jù)等看完,大概需要10個小時,也就是兩天的工作量。2010年,移動數(shù)據(jù)爆發(fā)之后,這個基金經(jīng)理要把每天市場上產(chǎn)生的信息吸收掉,大概需要10個月的時間。2016年,還是這個基金經(jīng)理,假如把當(dāng)天市場上所有的信息看完,大概需要20年的時間,相當(dāng)于整個職業(yè)生涯。所以基金經(jīng)理迫切需要利用先進(jìn)的智能技術(shù),比如百度的自然語言處理技術(shù)。

機(jī)器可以瞬間完成上市公司的公告、財(cái)務(wù)報(bào)表、官方發(fā)布、社交平臺、證券行情、實(shí)時新聞、行業(yè)分析報(bào)告等海量異構(gòu)數(shù)據(jù)的閱讀,對于文本中的圖片和表格需要OCR(光學(xué)字符識別)等技術(shù)解析。緊接著,進(jìn)行關(guān)鍵實(shí)體信息的提取,發(fā)現(xiàn)埋藏在實(shí)體信息之間,如行業(yè)上下游關(guān)系、供應(yīng)鏈關(guān)系、股權(quán)變更歷史、定增與重大資產(chǎn)重組的關(guān)系、多張財(cái)務(wù)報(bào)表之間的數(shù)據(jù)交叉驗(yàn)證等數(shù)據(jù)關(guān)系,形成并呈現(xiàn)這些復(fù)雜關(guān)系的「知識圖譜」。

再說翻譯。在機(jī)器翻譯的模式中,人類要做的不是親自尋找浩繁的語言規(guī)則,而是設(shè)定數(shù)學(xué)方法,調(diào)試參數(shù),幫助計(jì)算機(jī)網(wǎng)絡(luò)自己尋找規(guī)則。人類只要輸入一種語言,就會輸出另一種語言,不用考慮中間經(jīng)過了怎樣的處理,這就叫作端到端的翻譯。這種方法聽起來挺神奇,其實(shí)概率論里的貝葉斯方法、隱馬爾科夫模型等都可以用來解決這個問題。

技術(shù)是神奇的。以資訊分發(fā)當(dāng)中的貝葉斯方法為例,可以構(gòu)建一個用概率來描述的人格特征模型。比如男性讀者模型的特征之一是在閱讀新聞時點(diǎn)擊軍事新聞的概率是40%,而女性讀者模型是4%。一旦一個讀者點(diǎn)擊了軍事新聞,根據(jù)貝葉斯公式就可以逆推這個讀者的性別概率,加上這個讀者的其他行為數(shù)據(jù),綜合計(jì)算,就能比較準(zhǔn)確地判斷讀者的性別以及其他特征。這就是數(shù)學(xué)的「神奇」。當(dāng)然,計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)使用的數(shù)學(xué)方法遠(yuǎn)不止這些。

人類的行為一旦被互聯(lián)網(wǎng)以數(shù)據(jù)的形式記錄下來,就成為滋養(yǎng)人工智能在各行各業(yè)齊頭并進(jìn),進(jìn)而幫助人類自己的無窮無盡的燃料。機(jī)器翻譯、語音識別、圖像識別都是基于互聯(lián)網(wǎng)提供的大量數(shù)據(jù),用戶點(diǎn)擊行為也是如此。為什么百度搜索引擎的準(zhǔn)確性是國內(nèi)其他搜索引擎難以比擬的?因?yàn)閿?shù)據(jù)量最大、算法最先進(jìn)、積累最雄厚。用戶的每一次點(diǎn)擊其實(shí)都在訓(xùn)練搜索引擎背后的百度大腦,告訴它哪一條資訊才是用戶最想要的。

實(shí)際上,臉書也擁有自己的人工智能實(shí)驗(yàn)室以及類似谷歌大腦的團(tuán)隊(duì)——應(yīng)用機(jī)器學(xué)習(xí)事業(yè)群。這些機(jī)構(gòu)的使命是在各種臉書產(chǎn)品中推廣人工智能技術(shù)。用該公司首席技術(shù)官麥克·斯克洛普夫(Mike Schroepfer)的話說:「臉書約有1/5的工程師現(xiàn)在都在使用機(jī)器學(xué)習(xí)技術(shù)?!?/p>

AlphaGo的主人谷歌當(dāng)然也不會只滿足于下棋,其人工智能投入多年來不斷膨脹。2012年,谷歌只有兩個深度學(xué)習(xí)項(xiàng)目,2016年底這個數(shù)字突破了1000。目前谷歌從搜索、安卓系統(tǒng)、Gmail(免費(fèi)網(wǎng)絡(luò)郵件服務(wù))、翻譯、地圖、YouTube(視頻網(wǎng)站)甚至到無人車,都有深度學(xué)習(xí)的影子。

人工智能進(jìn)步背后的原理

中國擁有龐大的業(yè)務(wù)應(yīng)用場景、用戶和數(shù)據(jù)以及基數(shù)最龐大的人才群體,進(jìn)步很快。除了BAT(百度、阿里巴巴、騰訊三大互聯(lián)網(wǎng)公司首字母縮寫)、華為等巨頭大力開發(fā)人工智能,還有很多垂直領(lǐng)域的人工智能公司涌現(xiàn)。在去年的各種互聯(lián)網(wǎng)論壇上,不論是電商、社交媒體,還是搜索引擎,各家互聯(lián)網(wǎng)企業(yè)的掌門人都在將話題引向人工智能,匯報(bào)著或大或小的成績。

決定現(xiàn)代數(shù)字計(jì)算系統(tǒng)主要結(jié)構(gòu)的是資源的組織形式。而人工智能計(jì)算的本質(zhì),簡單來說,非常不同于馮·諾依曼的控制流結(jié)構(gòu),后者采用線性的記憶體和布爾函數(shù)作為基線計(jì)算操作。而新的范式是神經(jīng)網(wǎng)絡(luò)計(jì)算,其特征在于分布式的表示和激活模式。在這里,變量由疊加在共享物理資源(如神經(jīng)元)上的向量表示,并且通過神經(jīng)元的激活來進(jìn)行計(jì)算。網(wǎng)絡(luò)的拓?fù)浼軜?gòu)和激活模式提供了巨大的計(jì)算空間,可以有效并且自然地捕獲豐富的知識(通過拓?fù)涞某瑓?shù)、權(quán)重、激活函數(shù))。相對于馮·諾依曼架構(gòu)中的本地化表示(其中變量由諸如寄存器的專用或局部化物理資源表示)和符號計(jì)算,神經(jīng)網(wǎng)絡(luò)計(jì)算在學(xué)習(xí)和表示物理世界以及社會的豐富的語義知識方面更加自然和強(qiáng)大。

通過神經(jīng)網(wǎng)絡(luò)計(jì)算的力量,下一波的人工智能技術(shù)可以在以下兩個維度提升目前的計(jì)算系統(tǒng):

  • 一是自動分層特征/表示學(xué)習(xí)。這是機(jī)器學(xué)習(xí)容量的實(shí)質(zhì)性提升,因?yàn)楫?dāng)今機(jī)器學(xué)習(xí)工作的很大一部分關(guān)鍵在于特征工程。如百度大腦已經(jīng)擁有萬億級的參數(shù)、千億級的樣本和千億級的特征訓(xùn)練。
  • 二是高級認(rèn)知,特別是感知能力。這是下一代設(shè)備(如無人駕駛汽車)和下一代平臺(如自然語言會話)產(chǎn)生的巨大催化劑。

人工智能計(jì)算的強(qiáng)大能力將有助于產(chǎn)生許多新品種的智能系統(tǒng),如機(jī)器律師、機(jī)器分析師、醫(yī)療機(jī)器人、智能客服人員等。

人工智能計(jì)算的另一個發(fā)展方向是組織各種服務(wù)于特定物理架構(gòu)和物理要素的系統(tǒng),如家、辦公室、工廠等的智能系統(tǒng)。其基本模式是通過使用物聯(lián)網(wǎng)傳感器的各種原始信號,人工智能的「感知系統(tǒng)」會對物理架構(gòu)進(jìn)行識別和感知;而「認(rèn)知系統(tǒng)」需要組織信息和學(xué)習(xí)更多關(guān)于物理架構(gòu)的知識,并去預(yù)測、判斷和決策,以使各類物理系統(tǒng)更加智能。

目前,在科研領(lǐng)域,人工智能計(jì)算可以提供更先進(jìn)的建模能力,成為多領(lǐng)域和新一波科研浪潮的催化劑。

在商業(yè)方面,人工智能可以提供額外的機(jī)會,為企業(yè)組織創(chuàng)建集成的業(yè)務(wù)計(jì)算系統(tǒng)(Business Computing System,BCS)平臺。如記錄業(yè)務(wù)對象(如系統(tǒng)設(shè)計(jì)模型、交易記錄)和業(yè)務(wù)流程(如ERP(企業(yè)資源計(jì)劃)、CRM(客戶關(guān)系管理);或者系統(tǒng)設(shè)計(jì)并模仿人類工作活動,如溝通、協(xié)作、閱讀、寫作、尋求信息等。

目前來說,人工智能的「感知系統(tǒng)」有更廣泛、更新的商業(yè)機(jī)會:一方面,可以構(gòu)建和部署更多的「傳感系統(tǒng)」的子系統(tǒng),針對的是物理環(huán)境或物理系統(tǒng),如裝配線、工廠等。這使得未來人力密集的制造業(yè)、商業(yè)服務(wù)業(yè)等,可以采用更先進(jìn)的信息工具和更強(qiáng)的自動化。另一方面,自然語言處理技術(shù)的迅速進(jìn)步使得我們可以掃描和分析文本文檔和信息,并從中提取各種高價值的業(yè)務(wù)知識,而構(gòu)建和部署專用的「文本理解子系統(tǒng)」可以得到很多高價值的知識和商業(yè)回報(bào)。

人工智能「認(rèn)知系統(tǒng)」的成熟代表了智能時代更長遠(yuǎn)的未來,所有的行業(yè)、職業(yè)、社會系統(tǒng)、生活方式都將被重塑。如果數(shù)字化社會可以概括為「信息就在指尖」,那么,人工智能時代的本質(zhì)可以概括為「知識無處不在,任何交互都是智能的?!?/p>

這個浪潮對大多數(shù)人來說無疑是巨大的機(jī)遇。

傳統(tǒng)的制造業(yè)基本上以器械、電器和電力為主,其生產(chǎn)流水線基本上要用很大規(guī)模的投資來建立,后續(xù)很難調(diào)整。比如一家汽車制造廠,要重新建立一條生產(chǎn)流水線,成本很高,花的時間很多。當(dāng)數(shù)據(jù)智能、自動化、精準(zhǔn)預(yù)測對制造業(yè)的改造完成之后,后者的面貌將煥然一新。未來的制造業(yè)生產(chǎn)流程將是模塊式的,全部是數(shù)字控制。當(dāng)一家汽車制造廠要調(diào)整生產(chǎn),制造另外一種樣式的汽車,它不再需要重建生產(chǎn)線,而只需要把新產(chǎn)品模塊的接口(API)調(diào)過來就可以了。這將徹底改變制造業(yè)基礎(chǔ),制造業(yè)效率也將會極大地提升。

這個改變的核心是數(shù)據(jù)和知識,即制造的流程、制造的工藝、制造的設(shè)計(jì),制造的每一步都會用數(shù)字來控制。

再比如制藥行業(yè)。以前一款新藥的誕生要經(jīng)歷長期的研發(fā)過程,去發(fā)現(xiàn)某種方式對某種病癥有效。未來借助人工智能計(jì)算技術(shù),將龐大的基因數(shù)據(jù)與海量的健康信息結(jié)合起來分析,人類可以很快發(fā)現(xiàn)規(guī)律,找到個性化的基因藥物。

大數(shù)據(jù)之「大」,讓不可能成為可能

既然人類運(yùn)用數(shù)據(jù)已久,而且自工業(yè)革命以來,數(shù)據(jù)經(jīng)歷過一次又一次的爆發(fā),何以近年來才出現(xiàn)「大數(shù)據(jù)」的概念?僅僅是它所能記錄和計(jì)算的數(shù)據(jù)量更多而已嗎?自然數(shù)可以無限數(shù)下去,1、2、3、4,以至于無窮,但「多」是不夠的,還必須具有幾大特征:

1、大數(shù)據(jù)的「大」

毋庸置疑,這個「大」相對于人類傳統(tǒng)數(shù)據(jù)的儲存方式,不是一個量級上的大小之分,而是幾何量級的差距。想想百度地圖上每日720億次的定位請求,再想想互聯(lián)網(wǎng)上每天有多少次點(diǎn)擊、社交媒體上每天有多少文字和圖片發(fā)出……各種大數(shù)據(jù)平臺一天之內(nèi)收集到的數(shù)據(jù)量就可以超越人類幾千年來文字、圖像的總和。

2、大數(shù)據(jù)的另一個重要特點(diǎn)是多維度

多維度代表著大數(shù)據(jù)可以對一個事物進(jìn)行多方位的描述,從而更準(zhǔn)確。

以金融征信應(yīng)用為例,傳統(tǒng)金融機(jī)構(gòu)在進(jìn)行征信時,一般采集20個維度左右的數(shù)據(jù),主要包括年齡、收入、學(xué)歷、職業(yè)、房產(chǎn)車產(chǎn)、借貸情況等。然后綜合評分來識別客戶的還款能力和還款意愿,決定信貸額度。

互聯(lián)網(wǎng)公司采用大數(shù)據(jù)方法,所獲得的維度可以讓傳統(tǒng)銀行嚇一跳。BAT都開設(shè)了自己的金融服務(wù),因?yàn)閾碛腥媲揖薮蟮挠脩魯?shù)據(jù),可以查詢客戶的各種線上記錄,比如是否有批量申請貸款等異常行為;還可以將客戶信息與互聯(lián)網(wǎng)全局信息比對,通過欺詐行為模式的比對分析其可信度;更進(jìn)一步,還可以分析客戶的消費(fèi)行為和習(xí)慣,結(jié)合填報(bào)收入分析還款能力如何。當(dāng)然,作為用戶的隱私,這些數(shù)據(jù)都不會被公開,用戶所能感受到的便利是征信排隊(duì)時間極大地縮短了,因?yàn)榇髷?shù)據(jù)可以在幾秒鐘內(nèi)就對申請者超過1萬條的原始信息進(jìn)行調(diào)取和審核,迅速核對數(shù)萬個指標(biāo)維度。

對一個陌生人進(jìn)行征信就好比「盲人摸象」,傳統(tǒng)方法是通過20個「盲人」去評估一個客戶的信用「大象」,注定是有缺陷的。而大數(shù)據(jù)的多維度就如同幾萬人同時「摸象」,再把這幾萬人的反饋匯總到一起。維度越多,結(jié)論就越準(zhǔn)確。

3、處理非結(jié)構(gòu)化數(shù)據(jù)的能力

結(jié)構(gòu)化數(shù)據(jù)中最基本的數(shù)字、符號等,可以用固定的字段、長短和邏輯結(jié)構(gòu)保存在數(shù)據(jù)庫中,并用數(shù)據(jù)表的形式向人類展現(xiàn)(想一下常見的Excel表格),處理非常方便。但是互聯(lián)網(wǎng)時代產(chǎn)生了大量非結(jié)構(gòu)化數(shù)據(jù),對于圖片、視頻、音頻等內(nèi)容,它們的數(shù)據(jù)量巨大卻沒有清晰的結(jié)構(gòu)。對于圖像的數(shù)據(jù),我們只能理解為一個二維矩陣上的無數(shù)像素點(diǎn)。非結(jié)構(gòu)化數(shù)據(jù)增長量很快,據(jù)推測將占未來10年新生數(shù)據(jù)總量的90%。而大數(shù)據(jù)技術(shù)可以通過圖像識別、語音識別、自然語言分析等技術(shù)計(jì)算、分析大量非結(jié)構(gòu)化數(shù)據(jù),大大提升了數(shù)據(jù)維度。

非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量遠(yuǎn)超結(jié)構(gòu)化數(shù)據(jù),蘊(yùn)含巨大能量,應(yīng)用前景廣闊。例如,在機(jī)場等公共場合的個人身份檢查,過去只能根據(jù)旅客提供的身份信息這一個主要維度去判斷其身份。而人臉識別、語音識別等技術(shù)應(yīng)用成熟后,大數(shù)據(jù)可以直接通過攝像快速比對審核,增加對個人身份判斷的維度,進(jìn)行既精確又高效的安全檢查。

4、大數(shù)據(jù)是生生不息的「流」,具有時間性

它過去就不再回來,就像人無法兩次踏入同一條河流。這一方面是因?yàn)閿?shù)據(jù)量太巨大,無法全部存儲;另一方面是大數(shù)據(jù)和人類生生不息的行動相關(guān),瞬息萬變。百度大數(shù)據(jù)實(shí)驗(yàn)室因此提出一個概念叫作「時空大數(shù)據(jù)」。

地圖就是時空大數(shù)據(jù)之母。百度地圖有一個路段擁堵預(yù)警功能。如果前方路段暢通會顯示為綠色;如果擁堵則會顯示成紅色,提醒用戶選擇其他路線。這是我們與數(shù)據(jù)互動的一個簡明例子。如果我們有A和B兩條路線可以選擇,此時A路線擁堵而B路線暢通,那么我們都會選擇B路線;當(dāng)越來越多的車主選擇B路線,那么B路線將會變成擁堵而A路線又會暢通。

此消彼長,變化萬千。依靠智能手機(jī)的定位功能,百度地圖可以實(shí)時更改當(dāng)前的路況監(jiān)測結(jié)果,精確地告訴每一個位置用戶當(dāng)前自己所面對的路面情況。通過數(shù)據(jù)可視化技術(shù)和各種評估手段,可以描繪一座城市的日常脈搏,比如上下班的人流數(shù)據(jù)變化,仿佛城市在吞吐呼吸。除了被記錄下來的,更多數(shù)據(jù)只在當(dāng)時有效。把數(shù)據(jù)全部存儲下來是不可能的,那樣需要的硬盤可能整座城市的地皮都堆不下,只能即時應(yīng)用,用過就消失。

5、大數(shù)據(jù)的「大」表現(xiàn)為無盡的重復(fù)

對于語音識別來說,正因?yàn)槿藗冎貜?fù)講述同樣的語句,機(jī)器通過反復(fù)識別這些人類語音的細(xì)微差別,才能全面掌握人類語音。也正因?yàn)槿藗冎芏鴱?fù)始的運(yùn)動,才讓系統(tǒng)能捕捉城市運(yùn)動的規(guī)律。「重復(fù)」的數(shù)學(xué)意義是「窮舉」。以往人類無法通過窮舉法來把握一個事情的規(guī)律,只能采用「取樣」來估計(jì),或者通過觀察用簡單明了的函數(shù)來代表事物規(guī)律,但大數(shù)據(jù)讓窮舉法這種「笨辦法」變得可能了。

中國在人工智能領(lǐng)域存在強(qiáng)烈的內(nèi)在驅(qū)動

顯然,在多元化的網(wǎng)絡(luò)世界里,沒有任何一個國家、機(jī)構(gòu)能「獨(dú)當(dāng)一面」。只有不同文化、經(jīng)濟(jì)、政治背景的基因進(jìn)行競爭,才能對網(wǎng)民的需求做出全面恰當(dāng)?shù)幕貞?yīng)。

從國情來看,中國發(fā)展人工智能較歐美國家有著更強(qiáng)烈的內(nèi)在驅(qū)動,這種驅(qū)動來自民間。百度搜索統(tǒng)計(jì)顯示,有關(guān)「服務(wù)」的搜索請求數(shù)量始終在迅速增長:2014年比2013年增長了133%。2016年在基數(shù)更大的情況下,仍有153%的增長。

在移動互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用上,中國比美國更普及。中國網(wǎng)民早已習(xí)慣于訴諸互聯(lián)網(wǎng)尋求服務(wù)。如今中國每100張電影票中就有55張是通過網(wǎng)絡(luò)下單預(yù)訂的。與之對應(yīng)的是,互聯(lián)網(wǎng)服務(wù)在美國電影行業(yè)的滲透率只有20%,也就是說100張電影票中只有20張是網(wǎng)上訂票。比如,中國餐飲行業(yè)的互聯(lián)網(wǎng)滲透率是2%時,美國只有1%。

中國之大,之特殊,要高效實(shí)現(xiàn)中國網(wǎng)民的服務(wù)需求,人工智能創(chuàng)新就是一條必由之路。

驅(qū)動的另一個源頭則是產(chǎn)業(yè)焦慮。中國制造業(yè)成本上升很快。放眼全球,工業(yè)越來越自動化和智能化,高端制造業(yè)可能會回到歐美,而低端制造業(yè)已開始流向越南等國。如果不在短時間內(nèi)完成產(chǎn)業(yè)轉(zhuǎn)型,中國制造業(yè)將面臨「空心化」的困境:高端制造業(yè)、低端制造業(yè)都將流出中國——這個轉(zhuǎn)型,能不依賴人工智能這一環(huán)嗎?

盡管局勢緊迫,但中國的實(shí)力值得看好。中國企業(yè)的執(zhí)行力、中國政府的支持力度都是新興產(chǎn)業(yè)的強(qiáng)力后援。

如果說網(wǎng)民的需求是「天時」,企業(yè)與政府的合作是「人和」,數(shù)據(jù)則是中國大腦發(fā)展必不可少的「地利」。在這一領(lǐng)域,中國更是得天獨(dú)厚。

龐大的人口規(guī)模、復(fù)雜的社會環(huán)境和面向不同應(yīng)用場景的互聯(lián)網(wǎng)企業(yè),匯合收集這個數(shù)據(jù)全集意義非凡??梢灶A(yù)見,不久的未來除了個人數(shù)據(jù),依托于公共環(huán)境或者政府背景而產(chǎn)生和積累的數(shù)據(jù),如汽車注冊信息、學(xué)籍學(xué)歷、犯罪記錄等,將以加密的方式形成個人基礎(chǔ)電子檔案。企業(yè)與市場通過服務(wù)輸出獲取的數(shù)據(jù),如信用卡賬單、消費(fèi)記錄、網(wǎng)站瀏覽偏好、慣用手機(jī)品牌等,則將以用戶授權(quán)的方式再次轉(zhuǎn)化為服務(wù)回饋給使用者。

這里的「使用者」,不是會編碼、能建模的「碼農(nóng)」博士,而是普通的公眾群體。讓更多的人也能便捷地使用智能設(shè)備才是真正意義上的科技福利。

 

作者:李彥宏,百度公司董事長兼首席執(zhí)行官

本文由 @投資人說(ID:touzirenshuo) 整編發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖由作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 基本上是李彥宏那本“智能革命”書中的內(nèi)容啊

    來自廣東 回復(fù)
  2. 希望百度早點(diǎn)完蛋 ??

    來自上海 回復(fù)
  3. 這樣的文章,多來幾篇! ??

    來自廣東 回復(fù)
  4. 被封面李彥宏大大的帥氣笑容感染進(jìn)來看看~ ??

    來自浙江 回復(fù)