數(shù)據(jù)中臺(tái)建設(shè)系列篇:什么樣的企業(yè)適合建設(shè)數(shù)據(jù)中臺(tái)
編輯導(dǎo)語(yǔ):近年來(lái),數(shù)據(jù)中臺(tái)特別火熱,數(shù)據(jù)中臺(tái)有著它的巨大價(jià)值。但是并不是所有企業(yè)都適合建設(shè)數(shù)據(jù)中臺(tái),需要依照實(shí)際情況進(jìn)行理性分析,按需選擇。我們一起來(lái)看看什么樣的企業(yè)才適合建設(shè)數(shù)據(jù)中臺(tái)吧。
上篇文章(數(shù)據(jù)中臺(tái)建設(shè)系列篇:什么是數(shù)據(jù)中臺(tái))我們聊清楚了什么是數(shù)據(jù)中臺(tái),也知道了數(shù)據(jù)中臺(tái)的巨大價(jià)值,那是不是就可以開(kāi)始建設(shè)數(shù)據(jù)中臺(tái)了呢?
我想,在正式進(jìn)入數(shù)據(jù)中臺(tái)建設(shè)之前,我們來(lái)聊聊什么樣的企業(yè)適合建設(shè)數(shù)據(jù)中臺(tái),以便大家能夠按照企業(yè)實(shí)際情況,理性分析,按需選擇,防止盲目跟風(fēng)帶來(lái)巨大損失。
一、建設(shè)數(shù)據(jù)中臺(tái)
前企業(yè)常見(jiàn)數(shù)據(jù)痛點(diǎn)由于工作原因,參與了多個(gè)數(shù)據(jù)中臺(tái)項(xiàng)目,在此過(guò)程中,我發(fā)現(xiàn)很多企業(yè)在建設(shè)數(shù)據(jù)中臺(tái)前通常會(huì)存在一系列的痛點(diǎn),總結(jié)起來(lái),可以概括為以下5大類:
1. 指標(biāo)口徑不統(tǒng)一
兩張報(bào)表里面名稱相同的指標(biāo)【銷(xiāo)售額】,展示的結(jié)果卻不一樣,業(yè)務(wù)懷疑數(shù)據(jù)有問(wèn)題,便找開(kāi)發(fā)排查,排查結(jié)果顯示,這兩個(gè)指標(biāo),一個(gè)含稅,一個(gè)不含稅。業(yè)務(wù)人員面對(duì)這些指標(biāo)的時(shí)候,如果不知道指標(biāo)的業(yè)務(wù)口徑,很難去使用這些數(shù)據(jù)。
2. 需求響應(yīng)時(shí)間長(zhǎng)
隨著需求的不斷增長(zhǎng),運(yùn)營(yíng)和分析師抱怨需求的交付時(shí)間太長(zhǎng),無(wú)法滿足快速發(fā)展和變化的業(yè)務(wù)對(duì)數(shù)據(jù)的敏捷研發(fā)要求。
3. 取數(shù)效率低
隨著數(shù)據(jù)的不斷增長(zhǎng),面對(duì)海量的數(shù)據(jù)表,運(yùn)營(yíng)和分析師們準(zhǔn)確找到數(shù)據(jù)、理解數(shù)據(jù)變得越來(lái)越困難,大量臨時(shí)取數(shù)工作只能依賴數(shù)據(jù)研發(fā)來(lái)完成,使得數(shù)據(jù)研發(fā)無(wú)法專注于數(shù)倉(cāng)模型的構(gòu)建上,從而形成【數(shù)據(jù)不完善——研發(fā)忙于各種臨時(shí)取數(shù)需求——數(shù)據(jù)不完善】的惡性循環(huán)。
4. 數(shù)據(jù)質(zhì)量差
時(shí)常有數(shù)據(jù)結(jié)果計(jì)算錯(cuò)誤,導(dǎo)致做出錯(cuò)誤的業(yè)務(wù)決策的情況發(fā)生。數(shù)據(jù)bug頻發(fā),故障溯源和恢復(fù)常常消耗大量時(shí)間。
5. 數(shù)據(jù)成本大
隨著業(yè)務(wù)的發(fā)展和時(shí)間的推移,企業(yè)數(shù)據(jù)成本呈線性增長(zhǎng),企業(yè)每年要為此花費(fèi)大量的真金白銀。
通常,這些問(wèn)題會(huì)隨著數(shù)據(jù)中臺(tái)的成功上線被解決掉。那數(shù)據(jù)中臺(tái)是如何解決這些痛點(diǎn)的呢,在回答這個(gè)問(wèn)題之前,我們先看看以上這些痛點(diǎn)背后的原因是什么?
二、問(wèn)題背后的原因是什么
1. 指標(biāo)口徑不一致
通常表現(xiàn)在3各方面:業(yè)務(wù)口徑不一致、計(jì)算邏輯不一致、數(shù)據(jù)來(lái)源不一致。
業(yè)務(wù)口徑不一致:業(yè)務(wù)口徑不一致的指標(biāo),應(yīng)該要有不同的標(biāo)識(shí)去區(qū)分,比如上面提到的銷(xiāo)售額這一指標(biāo),明明口徑是不一致的,但卻沒(méi)有區(qū)分,容易讓業(yè)務(wù)誤解。
計(jì)算邏輯不一致:業(yè)務(wù)口徑的描述往往是一段話,但對(duì)于一些計(jì)算邏輯比價(jià)復(fù)雜的指標(biāo),一段話通常是描述不清楚的,如果碰巧兩個(gè)相同業(yè)務(wù)口徑的指標(biāo)是不同的數(shù)據(jù)研發(fā)實(shí)現(xiàn)的,極有可能會(huì)出現(xiàn)計(jì)算邏輯不一致的情況。
數(shù)據(jù)來(lái)源不一致:對(duì)于部分指標(biāo),有多個(gè)數(shù)據(jù)源可供選擇,如果數(shù)據(jù)源正好有些細(xì)微差異不被發(fā)現(xiàn)時(shí),即使加工邏輯一樣,也有可能結(jié)果不一致。另外,實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)也會(huì)有一定差異。
因此,要實(shí)現(xiàn)一致性,就要確保對(duì)同一個(gè)指標(biāo),只有一個(gè)業(yè)務(wù)口徑,只加工一次,且數(shù)據(jù)來(lái)源必須一致。
2. 需求響應(yīng)速度慢
主要在于煙囪式的開(kāi)發(fā)模式,使得數(shù)據(jù)復(fù)用性低,導(dǎo)致大量重復(fù)邏輯代碼的研發(fā),影響需求響應(yīng)速度。
比如,兩個(gè)指標(biāo)都需要對(duì)同一份原始數(shù)據(jù)進(jìn)行清洗,原則上來(lái)說(shuō),只用一個(gè)任務(wù)對(duì)原始數(shù)據(jù)做清洗,產(chǎn)出一張明細(xì)表,另一個(gè)指標(biāo)開(kāi)發(fā)時(shí),便可直接引用已經(jīng)清洗好的明細(xì)表,這樣便可節(jié)省一個(gè)清洗邏輯的研發(fā)工作量。但現(xiàn)實(shí)往往是對(duì)同一份原始數(shù)據(jù)做了兩次清。洗。
因此,要解決需求響應(yīng)速度慢的問(wèn)題,就要提升數(shù)據(jù)的復(fù)用性,確保相同數(shù)據(jù)只加工一次,實(shí)現(xiàn)數(shù)據(jù)的共享。
3. 取數(shù)效率低
主要表現(xiàn)在兩個(gè)方面,一方面是找不到數(shù)據(jù),另一方面是取不到數(shù)據(jù)。
要解決找不到數(shù)據(jù)的問(wèn)題,就要構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)目錄,讓數(shù)據(jù)使用者快速找到并理解數(shù)據(jù)。取不到數(shù)據(jù)的主要是非技術(shù)人員不會(huì)寫(xiě)SQL去提取數(shù)據(jù),所以可以為其提供自助取數(shù)工具,使其簡(jiǎn)單快速的獲取數(shù)據(jù)。
4. 數(shù)據(jù)質(zhì)量低
背后的原因主要是數(shù)據(jù)問(wèn)題很難被主動(dòng)發(fā)現(xiàn)和快速修復(fù),經(jīng)常是使用數(shù)據(jù)的人反饋投訴時(shí)才知道有問(wèn)題。
數(shù)據(jù)的加工鏈路一般比較長(zhǎng),有時(shí)超過(guò)幾十個(gè)上百個(gè)節(jié)點(diǎn),收到問(wèn)題反饋時(shí),研發(fā)需要逐個(gè)任務(wù)去排查,然后再重跑有問(wèn)題的任務(wù)及其下游鏈路的每個(gè)任務(wù),這一過(guò)程往往需要花費(fèi)很長(zhǎng)的時(shí)間,導(dǎo)致故障恢復(fù)效率低。
因此,要解決數(shù)據(jù)質(zhì)量低的問(wèn)題,就要實(shí)現(xiàn)在業(yè)務(wù)反饋問(wèn)題之前主動(dòng)發(fā)現(xiàn)問(wèn)題,并能快速恢復(fù)。
數(shù)據(jù)成本問(wèn)題主要是數(shù)據(jù)重復(fù)建設(shè)導(dǎo)致的存儲(chǔ)和計(jì)算資源的浪費(fèi),因此,解決這一問(wèn)題的關(guān)鍵是提升數(shù)據(jù)共享能力,避免數(shù)據(jù)重復(fù)建設(shè),消除冗余數(shù)據(jù)。
三、數(shù)據(jù)中臺(tái)是如何解決這些問(wèn)題的
1. 構(gòu)建全局一致的指標(biāo)詞典,實(shí)現(xiàn)指標(biāo)體系化管理
按照數(shù)倉(cāng)主題域的方式對(duì)所有指標(biāo)統(tǒng)一命名、分類,明確指標(biāo)口徑、數(shù)據(jù)來(lái)源、計(jì)算邏輯,產(chǎn)出企業(yè)的指標(biāo)詞典,由專門(mén)團(tuán)隊(duì)來(lái)負(fù)責(zé)指標(biāo)口徑的管控;
設(shè)計(jì)上線方便業(yè)務(wù)人員查詢的指標(biāo)詞典管理系統(tǒng),所有的數(shù)據(jù)產(chǎn)品、數(shù)據(jù)報(bào)表都引用指標(biāo)系統(tǒng)的口徑,當(dāng)鼠標(biāo)Hover到某個(gè)指標(biāo)上時(shí),浮現(xiàn)該指標(biāo)的指標(biāo)口徑定義。
2. 統(tǒng)一數(shù)倉(cāng)建模,構(gòu)建全局一直的公共層,提升數(shù)據(jù)復(fù)用性
制定統(tǒng)一的數(shù)倉(cāng)建模規(guī)范,在模型設(shè)計(jì)階段,強(qiáng)制相同聚合粒度的模型,度量不能重復(fù),保證相同粒度的指標(biāo)、度量只加工一次;建設(shè)數(shù)據(jù)地圖,方便數(shù)據(jù)研發(fā)能快速查找并準(zhǔn)確理解數(shù)據(jù)。
3. 提供企業(yè)數(shù)據(jù)地圖和自助取數(shù)系統(tǒng)
數(shù)據(jù)中臺(tái)構(gòu)建了企業(yè)數(shù)據(jù)地圖,數(shù)據(jù)使用者可通過(guò)數(shù)據(jù)地圖快速了解企業(yè)當(dāng)前有哪些數(shù)據(jù),在哪張表里可以看到,關(guān)聯(lián)了哪些指標(biāo)和維度;
非技術(shù)人員可通過(guò)自主取數(shù)工具,選取指標(biāo),勾選指標(biāo)的可分析維度,添加篩選條件,點(diǎn)擊查詢,就可以方便獲取數(shù)據(jù)。
4. 配置數(shù)據(jù)質(zhì)量稽核規(guī)則和數(shù)據(jù)預(yù)警
通過(guò)配置數(shù)據(jù)質(zhì)量稽核規(guī)則和數(shù)據(jù)預(yù)警,對(duì)數(shù)據(jù)一致性、完整性、正確性和及時(shí)性進(jìn)行監(jiān)控,確保第一時(shí)間發(fā)現(xiàn)、恢復(fù)、通知數(shù)據(jù)問(wèn)題。
5. 上線數(shù)據(jù)成本治理系統(tǒng)
數(shù)據(jù)治理系統(tǒng)可實(shí)現(xiàn)表維度、任務(wù)維度、應(yīng)用維度的全面數(shù)據(jù)治理。比如一個(gè)30天內(nèi)沒(méi)有被訪問(wèn)的報(bào)表,我們認(rèn)為其產(chǎn)出價(jià)值較低,這時(shí)我們可以結(jié)合這個(gè)報(bào)表的所有上游表和下游表產(chǎn)出任務(wù),計(jì)算這張表的加工成本,有了價(jià)值和成本,便可計(jì)算出ROI,根據(jù)RO評(píng)估,實(shí)現(xiàn)低價(jià)值報(bào)表的及時(shí)發(fā)現(xiàn)和下線。
四、什么樣的企業(yè)適合建設(shè)數(shù)據(jù)中臺(tái)
數(shù)據(jù)中臺(tái)的構(gòu)建需要大量人力物力的投入,所以數(shù)據(jù)中臺(tái)的建設(shè)一定要結(jié)合企業(yè)的現(xiàn)狀,按需選擇,不可盲目跟風(fēng)。在我看來(lái),企業(yè)在選擇是否構(gòu)建數(shù)據(jù)中臺(tái)的時(shí),可以從以下幾個(gè)方面思考:
首先,看企業(yè)是否有一定的信息基礎(chǔ),是否實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)化的過(guò)程,有了一定的數(shù)據(jù)沉淀,數(shù)據(jù)中臺(tái),顧名思義,數(shù)據(jù)是基礎(chǔ),畢竟巧婦難為無(wú)米之炊;
其次,企業(yè)是否存在業(yè)務(wù)數(shù)據(jù)孤島,是否有需要整合各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行關(guān)聯(lián)分析的需求,如果有,需要通過(guò)構(gòu)建數(shù)據(jù)中臺(tái),打通數(shù)據(jù)孤島,整合各業(yè)務(wù)系統(tǒng)數(shù)據(jù),滿足關(guān)聯(lián)分析的需求。
比如某零售企業(yè),在業(yè)務(wù)發(fā)展初期,商品、銷(xiāo)售、供應(yīng)鏈等都是獨(dú)立的數(shù)據(jù)倉(cāng)庫(kù),后期要構(gòu)建智能補(bǔ)貨系統(tǒng),需要打通多個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),因此選擇建設(shè)數(shù)據(jù)中臺(tái)。
最后,在日常的數(shù)據(jù)使用過(guò)程中是否遇到指標(biāo)口徑不一致、需求響應(yīng)速度慢、數(shù)據(jù)質(zhì)量差、數(shù)據(jù)成本高等痛點(diǎn)。
如果滿足前兩個(gè)條件,且在數(shù)據(jù)應(yīng)用中存在以上所述的一些痛點(diǎn),那建議你可以考慮將數(shù)據(jù)中臺(tái)項(xiàng)目提上日程了。
作者:微微;熱愛(ài)技術(shù)的產(chǎn)品一枚,持續(xù)更新數(shù)據(jù)中臺(tái)系列文章,“數(shù)據(jù)人創(chuàng)作者聯(lián)盟”成員。
本文由@一個(gè)數(shù)據(jù)人的自留地 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
????