透析大數(shù)據(jù)的泡沫、價值、應用陷阱與展望

2 評論 18870 瀏覽 21 收藏 22 分鐘

我們所生活的世界,就像一片混沌(chaos),大數(shù)據(jù)時代,我們周圍更是充斥著各種不同的理論、知識、信息和噪音,數(shù)據(jù)爆炸式增長和科技高速發(fā)展所帶來的沖擊,加大了未來的不確定性。

大數(shù)據(jù)源起:對未來不確定性的恐懼

我們所生活的世界,就像一片混沌(chaos),大數(shù)據(jù)時代,我們周圍更是充斥著各種不同的理論、知識、信息和噪音,數(shù)據(jù)爆炸式增長和科技高速發(fā)展所帶來的沖擊,加大了未來的不確定性。當我們接收的數(shù)據(jù)和信息越多,面臨的選擇就越多,如若不善于過濾、挖掘和處理,對各種決策就可能會造成負面影響,當然也會放大我們對未來不確定性的恐懼。小到個人命運大到國家前途,都是在這樣一片混沌中煎熬著。

如何從混沌中發(fā)現(xiàn)規(guī)律,成為預測未來的“先知”,抑或是少出幾只黑天鵝?是歷代人類的夢想,不管是古人的占卜、算命還是現(xiàn)在的專家系統(tǒng)、商業(yè)智能、數(shù)據(jù)挖掘、機器學習、人工智能、智慧地球、智慧城市等應用,都源于我們對未來不確定性的恐懼。當然還有應對當前管理走向的失控,軟件在加速吞噬世界,而大部分人類對其原理和特性卻知之甚少,就像華爾街的金融交易一樣,系統(tǒng)越復雜出現(xiàn)黑天鵝的概率就會增大;社交網(wǎng)絡的實時性打破了時空限制,信息的流動速度和廣度讓也管理者越發(fā)難以掌控。隨著舍恩伯格教授《大數(shù)據(jù)時代》一書的面世,給我們帶來了“醍醐灌頂”式的認知洗禮,難道抓住大數(shù)據(jù)這根救命稻草,我們就有機會做“先知”?從而也更有能力把自己和周遭世界管理得更好嗎?在一定程度上是這樣的,但我們也要知道,任何技術都是把雙刃劍。

舍恩伯格其實沒有機器學習背景,書上所說的某些內(nèi)容也是有爭議的,不過在教育民眾和政府官員科普方面,還是具有重要意義,至少讓大家知道了什么是大數(shù)據(jù),也能在一定程度上促使我們思考大數(shù)據(jù)的價值和潛力,從而提升大數(shù)據(jù)應用水平以應對管理失控和黑天鵝等問題。

大數(shù)據(jù)泡沫:泡沫是必然但有其深遠意義

數(shù)據(jù)科學其實已經(jīng)興起多年,從早年的專家系統(tǒng)、數(shù)據(jù)挖掘到前些年的商業(yè)智能,不少大型企業(yè)和機構在管理大數(shù)據(jù)方面積累了豐富的經(jīng)驗,筆者10年前就曾參與過運營商的數(shù)據(jù)挖掘系統(tǒng)建設,那都是實實在在的大數(shù)據(jù),只不過當時技術手段有限罷了,所以很少人能挖出什么高價值的東西,更談不上智能化決策了。但這些年的技術積累和數(shù)據(jù)積累,卻是極大地促進了大數(shù)據(jù)領域的發(fā)展,不然也沒有那么多人認同舍恩伯格教授書中的觀點。

甲骨文公司CEO埃里森曾說過,高科技是唯一能媲美好萊塢的產(chǎn)業(yè),說明高科技領域的技術明星也是變換極快的。技術和產(chǎn)品一樣,有其發(fā)展周期規(guī)律,大數(shù)據(jù)也只是一種技術手段,最終目的還是要解決現(xiàn)實問題,不管是科研、商業(yè)還是政府管理問題。關注大數(shù)據(jù)的人多了,自然就有泡沫,個人認為泡沫主要體現(xiàn)在如下幾個方面:

  1. 這幾年社會上關于大數(shù)據(jù)的宣傳,媒體人的引進和炒作,有部分內(nèi)容是在誤導大家,主要原因還是很多人在盲人摸象,少有系統(tǒng)的研究和理解。
  2. 只知其然不知其所以然,導致對大數(shù)據(jù)應用的期望太高,大數(shù)據(jù)技術不是萬金油,在新的技術泛型和技術生態(tài)下,現(xiàn)階段技術的穩(wěn)定性、成熟性和有效性還待進一步發(fā)展。
  3. 關注重點有問題,導致目前的很多大數(shù)據(jù)應用并未涉及到核心業(yè)務和計算模型,多是數(shù)據(jù)的采集和存儲管理,這也是造成行業(yè)整體門檻還不夠高,同質(zhì)化競爭激烈,沒有發(fā)揮出應有價值的原因。大數(shù)據(jù)泡沫顯然是客觀存在的,但其長期的應用價值卻不容小覷,泡沫不代表沒有價值,就像2000年的互聯(lián)網(wǎng)泡沫,泡沫破滅之后的涅磐,讓人類真正跨入了互聯(lián)網(wǎng)時代。大數(shù)據(jù)泡沫的價值就是讓全民認識到大數(shù)據(jù)時代數(shù)據(jù)分析和數(shù)據(jù)決策的重要性,這波泡沫過去,也許我們能正式跨入人工智能時代。

大數(shù)據(jù)價值:需要你自己去定義

大數(shù)據(jù)絕不只是數(shù)據(jù)大,不能光看字面意思??梢哉f大數(shù)據(jù)是一套技術體系,可以說是一種認知挖掘過程,也可以說是一種方法論和管理決策思維。

我們要搞懂大數(shù)據(jù)的價值,首先繞不開數(shù)據(jù)挖掘(或更窄的機器學習、或更廣義的人工智能技術)。數(shù)據(jù)挖掘(Data Mining),又稱為資料探勘、數(shù)據(jù)采礦,或數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,KDD)。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過各種算法挖掘隱藏于其中的規(guī)律和有價值信息的過程,通常通過統(tǒng)計方法、機器學習、專家系統(tǒng)、模式識別和在線分析處理等諸多方法來實現(xiàn)上述目標。

現(xiàn)階段大數(shù)據(jù)領域注重數(shù)據(jù)采集、數(shù)據(jù)存儲、基礎計算和可視化等層面,唯獨對數(shù)據(jù)挖掘建模和決策支持這兩個硬骨頭沒有展開深入研究和對接,這是大數(shù)據(jù)難以落地的根本原因。我們大多數(shù)人決策其實是靠感覺、個人經(jīng)驗或別人建議,少部分人會親自對報表等小數(shù)據(jù)進行客觀數(shù)據(jù)分析。

而大數(shù)據(jù)為我們提供了一種更加可靠的決策支持,畢竟數(shù)據(jù)不會說假話。大數(shù)據(jù)本身不產(chǎn)生價值,大數(shù)據(jù)的根本用途是利用大數(shù)據(jù)挖掘分析對我們的決策提供規(guī)律、知識和經(jīng)驗等科學依據(jù),客觀上減少面對未來決策的不確定性。所以,以業(yè)務決策支持為分析目標,大數(shù)據(jù)不靠大,小數(shù)據(jù)也一樣有大價值。為什么大數(shù)據(jù)的價值需要我們自己去定義呢?因為對于未來、對于未知領域,我們每個人或組織面臨的不確定性問題是不一樣的,有的偏個體(如疾病診斷,犯罪預測),有的偏大眾(如廣告營銷、客戶細分),有的偏微觀(如基因序列,個性化教育),有的偏宏觀(環(huán)境監(jiān)測、天文數(shù)據(jù)處理),有的關注資源優(yōu)化配置(如供需匹配,出行服務),有的關注宏觀決策(如政府資產(chǎn)分析、綜合管控)…可以說大數(shù)據(jù)分析需求無處不在,而又大不相同。這就需要從自身實際需求和數(shù)據(jù)、技術現(xiàn)狀出發(fā),自行設定大數(shù)據(jù)分析的價值和應用目標,生搬硬套互聯(lián)網(wǎng)公司那套做法,不可取。

大數(shù)據(jù)陷阱:應用前先問自己幾個問題

綜上所述,大數(shù)據(jù)無疑是好東西,很多組織機構也正在規(guī)劃或建設大數(shù)據(jù)平臺,很多創(chuàng)業(yè)玩家也正在計劃或進行大數(shù)據(jù)領域的技術服務或產(chǎn)品研發(fā)。但大數(shù)據(jù)領域面臨的陷阱也是不少,光看大數(shù)據(jù)、云計算、機器學習、數(shù)據(jù)挖掘、人工智能、深度學習、分布式計算等目不暇接的技術和概念,就夠眼花繚亂了,要真正理解各種技術的原理及相互聯(lián)系就更難,如何才能不畏浮云遮望眼,走出一條扎實的大數(shù)據(jù)應用落地之路。我以個人粗淺的理解提幾個問題供大家參考:

(1)第一問:我屬于什么級別的玩家?

大數(shù)據(jù)的核心優(yōu)勢在于規(guī)模效應,你的業(yè)務量越大、業(yè)務覆蓋性越廣、數(shù)據(jù)量越大,大數(shù)據(jù)投入的成本就越容易被攤薄,而長遠獲取的大數(shù)據(jù)應用價值就越巨大。所以,我一直認為政府才是最適合大數(shù)據(jù)應用的超級玩家,這也是為什么大數(shù)據(jù)獨角獸企業(yè)Palantir的產(chǎn)品只有政府定制版(FBI,CIA專用)和金融定制版(華爾街金融巨頭專用)的原因!一般企業(yè)或個人根本玩不起大數(shù)據(jù),小的個體只能像《黑客帝國》的孵化人為Matirx系統(tǒng)提供生物電池一樣,為超級玩家貢獻數(shù)據(jù)和技術還差不多。所以做大數(shù)據(jù)之前,先問問自己,我屬于什么級別的玩家。我有特定領域的海量數(shù)據(jù)嗎?有數(shù)據(jù)科學能力相關的核心技術(應用建模)嗎?有機會成為BAT嗎?或者降一級有機會成為Uber、滴滴、摩拜嗎?研發(fā)的產(chǎn)品能否等到大規(guī)模應用之時?提供的技術是否符合客戶的業(yè)務需求?因為一般來講,大數(shù)據(jù)的初始投入成本是很高的,自我定位很關鍵。當然成不了甲方還是可以做乙方,成不了BAT還是有機會被BAT收購的,另外采用敏捷大數(shù)據(jù)方法論,也有低成本的玩法。

(2)第二問:我是搞技術驅動、業(yè)務驅動還是數(shù)據(jù)驅動?

當前不少公司的大數(shù)據(jù)產(chǎn)品和服務不接地氣,從開始規(guī)劃上就有一定問題。很多公司都號稱自己有云計算和大數(shù)據(jù)方面的產(chǎn)品和服務,覆蓋面從Hadoop、Spark、MPP、NOSQL、OpenStack等,到公有云、私有云、商業(yè)智能、人工智能、深度學習等等方面,偌大一片浮云,客觀上促進了大數(shù)據(jù)領域的技術高速發(fā)展,可惜最終少有幾家能活到賺錢。首先,大數(shù)據(jù)領域,沒有幾把刷子是很難玩技術驅動的,像Hadoop,Spark這些基礎框架,AlphaGo系統(tǒng)、Nvidia的核心產(chǎn)品等,后面都有一幫名校博士、教授等技術大牛的身影在支持;其次,業(yè)務驅動最靠譜,但要有足夠的創(chuàng)新和資本支持,最近幾年出現(xiàn)的Uber、滴滴、摩拜、Airbnb、23andMe、貨車幫等創(chuàng)新公司,就是典型的業(yè)務驅動型大數(shù)據(jù)企業(yè),對傳統(tǒng)社會和商業(yè)的沖擊也是顛覆性的,如果能有極好的創(chuàng)意和資本支持,走這條路發(fā)展?jié)摿薮螅欢痛笮蛪艛鄧髶碛姓嬲拇髷?shù)據(jù)金礦,有數(shù)據(jù)+業(yè)務驅動的條件,但由于自身管理體制原因或引入的技術實力太弱,大數(shù)據(jù)的價值遠遠沒有被挖掘出來,當然這也是大機會,我們的國安部門也需要中國版的Palantir。所以大數(shù)據(jù)應用要接地氣,結合自身實力,問問自己搞技術驅動、業(yè)務驅動還是數(shù)據(jù)驅動,是最需要回答的問題。

(3)第三問:我是否清楚大數(shù)據(jù)應用的局限?

現(xiàn)階段,大數(shù)據(jù)應用面臨諸多挑戰(zhàn),新技術泛型下標準的大數(shù)據(jù)應用體系尚未建立,技術復雜度和風險較高,成功案例和最佳實踐缺乏。很多企業(yè)和機構都知道大數(shù)據(jù)潛力巨大,但卻不知如何著手,更不清楚大數(shù)據(jù)應用有哪些局限和潛在的問題。伯克利的Jordan教授是機器學習領域大牛,他提出了一個很好的比喻:如果大數(shù)據(jù)給出的結果可靠性低,沒有經(jīng)過充分的驗證,就急于應用到實際業(yè)務中,會面臨很大的風險,就好比是土木工程都沒學好就開始造橋,結果只能造出“豆腐渣工程”。所以我們要充分了解大數(shù)據(jù)技術的局限性,數(shù)據(jù)采集的不全面必然導致數(shù)據(jù)偏見,數(shù)據(jù)質(zhì)量的問題會導致Garbage In Garbage Out,我們對分析結果的不理解,或者不進行持續(xù)反饋驗證升級,就無法確認模型的準確性和穩(wěn)定性,另外《大數(shù)據(jù)時代》一書中所說的關注相關性不重視因果分析,也會導致一系列問題。

數(shù)據(jù)科學發(fā)展到現(xiàn)階段,從某種程度上講還不是一個足夠嚴謹?shù)膶W科,我們有一定的概率做出準確的預測,但是使用不當或預測不準,又會造成不好的后果。顯然Jordan教授很擔心現(xiàn)在公眾對大數(shù)據(jù)技術的熱情,并不是基于對這個領域的深入理解,但是他堅信大數(shù)據(jù)領域未來會誕生很多重要的應用,就像AlphaGo系統(tǒng)花一晚時間,自我學習幾百萬盤棋才戰(zhàn)勝李世石,對于新興技術,我們不能高估它但更不能低估。鑒于此,我們需要對大數(shù)據(jù)的數(shù)據(jù)質(zhì)量及技術偏差等做更細致的考察和評估,搞清楚大數(shù)據(jù)應用技術所面臨的限制及問題,才能走得更穩(wěn)更遠。

(4)第四問:我是否準備好打一場大數(shù)據(jù)應用持久戰(zhàn)?

我在《大數(shù)據(jù)應用從小做起?談微服務和大數(shù)據(jù)架構》一文中有提到過,大數(shù)據(jù)項目如何頂天立地:立地就是要落實到一個個要解決的具體問題,基于業(yè)務和數(shù)據(jù)驅動;頂天就是要規(guī)劃得目標長遠,大數(shù)據(jù)系統(tǒng)不是搞一錘子買賣,沒有一勞永逸的做法。特別是大型企業(yè)、機構或政府的大數(shù)據(jù)系統(tǒng),一定不能是傳統(tǒng)MIS系統(tǒng)的做法,大數(shù)據(jù)是個動態(tài)增量系統(tǒng),數(shù)據(jù)規(guī)模在變,業(yè)務在變,模型在變,參數(shù)在變,核心技術模型的迭代、優(yōu)化、持續(xù)升級及交付將是常態(tài),長期目標應該是智能化的綜合管控,從企業(yè)的生產(chǎn)、產(chǎn)品、銷售、服務各個環(huán)節(jié)的一體化智能管控中心,政府各部門聯(lián)席的智能服務和決策中心,好比Google Brain, Baidu Brain,大型企事業(yè)單位和政府也需要未來的數(shù)字決策大腦。從某種程度上講,大數(shù)據(jù)的關鍵不在于具體項目,而在于數(shù)據(jù)決策中心的持續(xù)優(yōu)化與運營,大數(shù)據(jù)系統(tǒng)建設要作為一個長遠的事業(yè)來做,讓每個成員都融入大數(shù)據(jù)管理思維變革過程中。我在之前的文章中提出了“快、小、證”大數(shù)據(jù)應用原則,對一個具體的大數(shù)據(jù)項目來講,能做到快速出原型,小分析點切入,證明有效之后再擴張的原則,就不用懼怕失敗,失敗后切換到下一個分析目標即可。由于大數(shù)據(jù)項目前期的實際投入成本遠遠大于收益,這就更需要精耕細作,打一場大數(shù)據(jù)應用持久戰(zhàn),可以從小處著手,逐步構建統(tǒng)觀全局的分析鏈,從而建立組織未來的大數(shù)據(jù)中心和基于大數(shù)據(jù)分析的輔助決策大腦。

(5)第五問:我是否了解大數(shù)據(jù)風險與數(shù)據(jù)偏見?

大數(shù)據(jù)時代,信息意味著權利,不同層級的信息代表不同層次的權利。這使得大數(shù)據(jù)集中之后也面臨著技術風險、成本風險、安全風險和管理風險等多個層面的問題,每個層級玩家面臨的風險各有側重,需要充分引起重視。大數(shù)據(jù)處理基于全新的技術泛型,新技術生態(tài)下技術本身的穩(wěn)定性、成熟性、擴展性等有風險;隨著數(shù)據(jù)爆炸增長需要存儲、計算包括電力等資源的持續(xù)投入,面臨成本風險(所以才有云計算的需求);面對大數(shù)據(jù)信息權的誘惑,黑客們的犯罪動機也比以往任何時候更強烈,黑客組織性更強,更加專業(yè),敏感數(shù)據(jù)入侵風險急劇增加;在數(shù)據(jù)管理方面還需要面對數(shù)據(jù)缺失(大數(shù)據(jù)的分析在于全量分析,任何一方面的數(shù)據(jù)缺失,都會讓算法產(chǎn)生偏見)、數(shù)據(jù)質(zhì)量低下、被操控的假數(shù)據(jù)(如水軍刷榜)等方面的問題。

(6)第六問:我是否理解并能貫徹大數(shù)據(jù)思維?

大數(shù)據(jù)時代,數(shù)據(jù)驅動決策是我們的必然選擇,畢竟事實勝于雄辯,數(shù)據(jù)能最大限度地說明問題,數(shù)據(jù)能讓你了解一些以前根本都不知道的事情,除了本身質(zhì)量的問題,數(shù)據(jù)不會說謊,通過大數(shù)據(jù)挖掘進行量化分析有助于精細化管理和運營,這是大數(shù)據(jù)思維的核心所在。不管是企業(yè)、機構還是政府,在做大數(shù)據(jù)規(guī)劃或應用之前,先問問自己,組織人員理解數(shù)據(jù)決策嗎?大數(shù)據(jù)能為他們帶來怎樣的好處?各級領導有沒有大數(shù)據(jù)決策基因或者這種思維變革的驅動力?所以從數(shù)據(jù)決策角度講,未來大數(shù)據(jù)思維在各行各業(yè)的滲透和如火如荼的大數(shù)據(jù)系統(tǒng)建設不亞于一場數(shù)據(jù)爆炸時代的管理變革“啟蒙運動”。這場運動由互聯(lián)網(wǎng)企業(yè)發(fā)起并逐漸繁榮,當大數(shù)據(jù)思維在傳統(tǒng)企業(yè)、機構和政府普及并落地應用之時,很可能就是通用人工智能時代的開始。

大數(shù)據(jù)展望:當大數(shù)據(jù)傍上人工智能。

最后,做一點展望,談談大數(shù)據(jù)和人工智能,在之前的文章中,我提到過大數(shù)據(jù)和人工智能的共生關系,對連接主義學派來講,沒有大數(shù)據(jù)就沒有智能,同樣,沒有人工智能的算法支持,特別是深度學習這一波技術熱潮的推動,大數(shù)據(jù)的價值也很難被發(fā)掘出來。所以大數(shù)據(jù)傍上人工智能是IT技術發(fā)展的必然。另外大數(shù)據(jù)與傳統(tǒng)商業(yè)智能技術在加速融合,如OLAP多維度分析、數(shù)據(jù)倉庫等技術也在向大數(shù)據(jù)處理靠攏。大數(shù)據(jù)的核心價值在于全量數(shù)據(jù)分析,而全量數(shù)據(jù)意味著智能誕生的基礎,初級智能誕生之后會給系統(tǒng)以反哺和回饋數(shù)據(jù),就像AlphaGo的強化學習和自我對抗學習一樣(嬰幼兒自己游戲玩耍同理),通過這種自我學習迭代過程,強人工智能誕生,人類正式跨入AI時代。那個時候的若干企業(yè)大數(shù)據(jù)中心、政府大數(shù)據(jù)中心和地球上的數(shù)朵大云,將會插上智能科學的翅膀,成為AI時代的關鍵基礎設施,到時大數(shù)據(jù)技術如何演化,國家又會呈現(xiàn)出怎樣的社會形態(tài),讓我們拭目以待。

 

作者:杜圣東,ZMTech CEO

來源:http://www.36dsj.com/archives/77989

本文來源于人人都是產(chǎn)品經(jīng)理合作媒體@36大數(shù)據(jù),作者@杜圣東

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 反著看,也很重要。

    來自江蘇 回復
  2. a

    回復