數(shù)據(jù)中臺建設(shè)的目的是什么?如何理解數(shù)據(jù)中臺?
文章就和大家聊聊我們對于“數(shù)據(jù)中臺”的理解,以及和“數(shù)據(jù)智能的技術(shù)體系”間的區(qū)別。
在上一篇文章《行業(yè)前沿:互聯(lián)網(wǎng)人必須讀懂的“數(shù)據(jù)智能”》中,我們概括性地闡述了對“數(shù)據(jù)智能”的理解,先做個簡單的總結(jié):
數(shù)據(jù)智能的定義:
數(shù)據(jù)智能就是以數(shù)據(jù)作為生產(chǎn)資料,通過結(jié)合大規(guī)模數(shù)據(jù)處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人機(jī)交互、可視化等多種技術(shù),從大量的數(shù)據(jù)中提煉、發(fā)掘、獲取知識,為人們在制定決策時提供有效的數(shù)據(jù)智能支持,減少或者消除不確定性。
數(shù)據(jù)智能的技術(shù)體系至少需要包含三個方面:數(shù)據(jù)治理系統(tǒng)、數(shù)據(jù)質(zhì)量保證系統(tǒng)、數(shù)據(jù)安全計算體系。
最近一段時間,在“新基建”浪潮的推動下,“數(shù)據(jù)中臺”這個詞異常火熱。于是有人問了我兩個問題:“數(shù)據(jù)中臺”與這個系列的核心“數(shù)據(jù)智能的技術(shù)體系”有什么區(qū)別?你們是怎么理解“數(shù)據(jù)中臺”這個概念的呢?
順著這兩個問題,這篇文章就和大家聊聊我們對于“數(shù)據(jù)中臺”的理解,以及和“數(shù)據(jù)智能的技術(shù)體系”間的區(qū)別。
再從數(shù)據(jù)的價值談起
數(shù)據(jù)的產(chǎn)生來源于我們的產(chǎn)品和服務(wù)所提供的直接價值。以打車軟件為例,因?yàn)锳PP需要提供給乘客所在地點(diǎn)周圍的司機(jī)信息,因此系統(tǒng)需要及時收集司機(jī)的位置以及車載乘客狀態(tài)以確定是否可被調(diào)度,然后把乘客的轎車需求發(fā)送給設(shè)定參數(shù)范圍內(nèi)的可用車輛。司機(jī)在進(jìn)行搶單或者配單后,就可以接上乘客并按照導(dǎo)航送至目的地。
在這個過程中,乘客的上車位置、下車位置、司機(jī)車輛的位置、狀態(tài)以及車輛行駛過程中的位置信息等數(shù)據(jù)都是為“打車”這個動作的直接價值服務(wù)。
正如大家所知,我們可以利用這些幾千幾萬輛車的位置信息,聚合出每個道路的交通狀況,再把這些知識提供給交通優(yōu)化等。這就是數(shù)據(jù)的擴(kuò)展價值,數(shù)據(jù)的多種價值匯總起來就是數(shù)據(jù)的選擇價值。
再打個比方,數(shù)據(jù)的首要價值被挖掘后仍能夠不斷給予,它的真實(shí)價值就像漂浮在海洋中的冰山,絕大部分被隱藏在表面下。數(shù)據(jù)的選擇價值也就是“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新成果。這些數(shù)據(jù)創(chuàng)新并不是事先就規(guī)劃好或者事先都能想到的。
那么為了保證這種創(chuàng)新的可能性,我們需要讓這些數(shù)據(jù)都能被保存下來,而不是在實(shí)現(xiàn)了直接價值后,就棄之如敝屣。這個也是接下來要提到的“數(shù)據(jù)湖”的由來。
數(shù)據(jù)湖與數(shù)據(jù)倉庫
數(shù)據(jù)湖的概念是2011年提出的。由于無法對已流失的數(shù)據(jù)進(jìn)行回溯,一些大數(shù)據(jù)廠商在Hadoop為基礎(chǔ)的技術(shù)棧上,把一個組織中產(chǎn)生的原始數(shù)據(jù)存儲在一個單一的系統(tǒng)中。一般大家會用開源的Hadoop來構(gòu)建數(shù)據(jù)湖,不過數(shù)據(jù)湖的概念比Hadoop更為廣泛。
看到數(shù)據(jù)湖,大家肯定會想到數(shù)據(jù)倉庫或者數(shù)據(jù)集市,那么兩者的區(qū)別在哪里呢?我們先來看看下面的這個圖。
圖 1 數(shù)據(jù)湖示意
數(shù)據(jù)湖存儲數(shù)據(jù)源提供的原始數(shù)據(jù),沒有對數(shù)據(jù)的形式進(jìn)行任何假設(shè)。每個數(shù)據(jù)源可以使用其選擇的任何形式,最終數(shù)據(jù)的消費(fèi)者會根據(jù)他們自己的目的來使用數(shù)據(jù),這是數(shù)據(jù)湖區(qū)別于數(shù)據(jù)倉庫的一個非常重要的原因。同時,這也是數(shù)據(jù)倉庫沒有走得更遠(yuǎn)的原因,因?yàn)閿?shù)據(jù)倉庫首先需要考慮數(shù)據(jù)方案(schema)。
圖 2 數(shù)據(jù)倉庫示意
數(shù)據(jù)倉庫傾向于為所有分析需求設(shè)計一個總體的方案表示,但是實(shí)際上即使是一個非常小的組織,想要通過一個統(tǒng)一的數(shù)據(jù)模型來涵蓋一切,也是不太實(shí)用的。另外,數(shù)據(jù)倉庫在使用中會出現(xiàn)數(shù)據(jù)質(zhì)量問題:不同的分析需求對數(shù)據(jù)的構(gòu)成有不同的質(zhì)量要求和容忍度。數(shù)據(jù)倉庫的這個特征導(dǎo)致了漫長的開發(fā)周期、高昂的開發(fā)成本和維護(hù)成本、細(xì)節(jié)數(shù)據(jù)丟失等問題的出現(xiàn)。
數(shù)據(jù)湖在直觀上更像一個數(shù)據(jù)質(zhì)量差異很大的數(shù)據(jù)傾倒場,如果只是聚合后的數(shù)據(jù),意味著會丟掉很多數(shù)據(jù)。數(shù)據(jù)湖應(yīng)該包含所有數(shù)據(jù),因?yàn)槟悴恢廊藗兛梢栽谑裁磿r候找到有價值的東西,可能是在今天,也可能是在未來幾年的時間里。
數(shù)據(jù)湖的這種原始數(shù)據(jù)的復(fù)雜性意味著我們可以通過一些方式來將數(shù)據(jù)轉(zhuǎn)變成一個易于管理的結(jié)構(gòu),這樣還可以減少數(shù)據(jù)的體量,更易于處理。數(shù)據(jù)湖還是不應(yīng)該經(jīng)常性地被直接訪問,因?yàn)閿?shù)據(jù)是很原始的,需要很多技巧才能使之變得有意義。一般可以按照下圖來處理,我們可以把它稱為數(shù)據(jù)湖岸集市。
圖 3 數(shù)據(jù)湖岸集市
把所有數(shù)據(jù)放入湖中的一個很關(guān)鍵的點(diǎn)是需要有一個清晰的治理。每個數(shù)據(jù)項應(yīng)該有一個清晰的跟蹤,以便于知道數(shù)據(jù)從哪個系統(tǒng)中來以及什么時候產(chǎn)生等,也就是元數(shù)據(jù)管理、數(shù)據(jù)血緣以及必要的數(shù)據(jù)安全。
數(shù)據(jù)中臺
數(shù)據(jù)中臺這個概念是阿里巴巴提出來的。隨著業(yè)務(wù)的快速發(fā)展,企業(yè)的多條業(yè)務(wù)線都產(chǎn)生了大量的數(shù)據(jù),而且數(shù)據(jù)都按照不同的形式進(jìn)行采集、存儲、處理等。為了快速滿足每個前端業(yè)務(wù)的需求,公司通常會讓前臺直接去聯(lián)系后臺。譬如:大部分公司的大后臺就是財務(wù),初始可能比較有效,但是隨著需求越來越多、越來越頻繁,溝通成本大大提高,效率大大降低。
同時,對于一個公司的多個業(yè)務(wù)來說,哪怕看起來很個性的需求,經(jīng)過抽象以及合并同類項后,我們發(fā)現(xiàn)也可以形成共有的能力。其實(shí),對于后臺的很多功能,同樣可以抽象出來,成為各業(yè)務(wù)共有的能力。這樣可以讓數(shù)據(jù)更靈活更敏捷地服務(wù)于前臺的各項業(yè)務(wù),這個就是數(shù)據(jù)中臺的初衷。
對于阿里來說,如何更好地把包括自己不同業(yè)務(wù)的數(shù)據(jù)、被收購公司的數(shù)據(jù)在內(nèi)的多個數(shù)據(jù)變成One Data , 然后為整個公司的業(yè)務(wù)服務(wù),也是數(shù)據(jù)中臺的一個核心目標(biāo)。
事實(shí)上,數(shù)據(jù)中臺的建設(shè)與數(shù)字化轉(zhuǎn)型一樣,其實(shí)也是一個螺旋上升的過程,往往需要不斷根據(jù)業(yè)務(wù)變化需求進(jìn)行完善。哪怕再宏大的數(shù)據(jù)中臺戰(zhàn)略,也必須要用真實(shí)的業(yè)務(wù)場景去實(shí)踐,通過以小到大的場景不斷去鍛煉中臺。
總結(jié)而言,數(shù)據(jù)中臺是練出來的,即數(shù)據(jù)的復(fù)用率決定了數(shù)據(jù)中臺的成功與否。一個數(shù)據(jù)中臺的成功意味著不少數(shù)據(jù)都在進(jìn)行著重復(fù)使用。此外,我們需要注意數(shù)據(jù)安全策略的執(zhí)行,包括底層數(shù)據(jù)安全的實(shí)現(xiàn)以及業(yè)務(wù)層數(shù)據(jù)的合規(guī)使用。
如果一個公司的數(shù)據(jù)中臺沒有和業(yè)務(wù)中臺緊密配合,那么這種純粹的數(shù)據(jù)中臺只是蹭熱點(diǎn),不會有很大的效果。所以我們認(rèn)為,更有價值的中臺是業(yè)務(wù)偏向的數(shù)據(jù)中臺,而不是通用型的數(shù)據(jù)中臺。這個觀點(diǎn),和前阿里數(shù)據(jù)委員會主席車品覺是一致的。
根據(jù)上面的分析,我們建議公司在業(yè)務(wù)或者產(chǎn)品比較單一抑或數(shù)據(jù)戰(zhàn)略并不太清晰的情況下,可以建設(shè)數(shù)據(jù)湖,而不是為了建設(shè)中臺而去建設(shè)。從本系列第一篇文章《數(shù)據(jù)智能時代來臨:本質(zhì)及技術(shù)體系要求》的整體介紹來看,我們數(shù)據(jù)智能的體系和數(shù)據(jù)中臺的目標(biāo)是一致的。
結(jié)語
從我們自身的理解來看,數(shù)據(jù)智能體系和數(shù)據(jù)中臺一樣,本質(zhì)上是把數(shù)據(jù)作為資產(chǎn),整理出企業(yè)的元數(shù)據(jù)和數(shù)據(jù)血緣關(guān)系,再以這些數(shù)據(jù)為中心,抽象出公共服務(wù)的能力。最后,讓前端流程的構(gòu)造和企業(yè)的穩(wěn)定數(shù)據(jù)公共服務(wù)解耦。這樣就沉淀出了公共服務(wù)能力,即把這些能力SaaS化。
數(shù)據(jù)智能體系或者說中臺,最根本的目的是敏捷地支撐業(yè)務(wù)部門的業(yè)務(wù)創(chuàng)新需求,打造快速服務(wù)商業(yè)需求的服務(wù)能力,并且盡量實(shí)時處理,體現(xiàn)數(shù)據(jù)的資產(chǎn)化及價值最大化。
我們認(rèn)為中臺最主要的用戶是數(shù)據(jù)開發(fā)者群體,包括數(shù)據(jù)研發(fā)人員、數(shù)據(jù)分析及建模人員。建設(shè)中臺的目的在于提高他們的效率、降低學(xué)習(xí)曲線、提高數(shù)據(jù)質(zhì)量。
作者:葉新江,個推CTO
本文由 @個推 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自?Unsplash,基于 CC0 協(xié)議
本文由 @個推 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
如何把一個單產(chǎn)品打造成一個爆款產(chǎn)品呢?
這話問的,就跟如果能考上清華北大一樣
hhh,
其實(shí)光靠中臺這個概念很難被市場接受了 ??
同為產(chǎn)品,也做過中臺,好想去您公司啊
非常好的干貨文章,期待后續(xù)更新
大佬講的很贊??