如何評價數(shù)據(jù)倉庫建設(shè)好壞?有哪些量化指標(biāo)

0 評論 2508 瀏覽 4 收藏 7 分鐘

該文本主要是關(guān)于如何評估數(shù)據(jù)倉庫建設(shè)和維護效果的一些建議和相關(guān)量化指標(biāo),包括數(shù)倉完善度、復(fù)用度和規(guī)范性的衡量方法。

企業(yè)數(shù)據(jù)倉庫建設(shè)需要數(shù)據(jù)開發(fā)者投入大量的時間和資源,對于數(shù)據(jù)團隊來說,管理者如何評價他們工作的好壞呢?

一群數(shù)據(jù)開發(fā)者每天都加班加點,業(yè)務(wù)部門仍然吐槽數(shù)據(jù)找不到,數(shù)據(jù)沒有,又該如何評價呢?

結(jié)合數(shù)據(jù)中臺思想,數(shù)據(jù)倉庫的建設(shè)目標(biāo)是希望為業(yè)務(wù)提供盡可能完善的模型(需要的我都有),并且減少重復(fù)建設(shè)盡量復(fù)用(成本要足夠低),此外,還需要符合統(tǒng)一的標(biāo)準規(guī)范(數(shù)據(jù)標(biāo)準)。

一、數(shù)倉完善度的衡量指標(biāo)

數(shù)倉完善度是指經(jīng)過數(shù)據(jù)開發(fā)長時間的開發(fā)和迭代,現(xiàn)有的數(shù)據(jù)倉庫資產(chǎn)是否覆蓋了業(yè)務(wù)常用的查詢場景,業(yè)務(wù)要的,模型是否已經(jīng)建設(shè)完成?

衡量DWD層是否完善,通??碠DS層有多少表被 DWS/ADS/DM 層引用。因為 DWD 以上的層引用的越多,就說明越多的任務(wù)是基于原始數(shù)據(jù)進行深度聚合計算的,明細數(shù)據(jù)沒有積累,無法被復(fù)用,數(shù)據(jù)清洗、格式化、集成存在重復(fù)開發(fā)。因此, 可以用跨層引用率指標(biāo)衡量 DWD 的完善度。

–跨層引用率:ODS 層直接被 DWS/ADS/DM 層引用的表,占所有 ODS 層表(僅統(tǒng)計活 躍表)比例。跨層引用率越低越好,在數(shù)據(jù)中臺模型設(shè)計規(guī)范中,一般要求不允許出現(xiàn)跨層引用,ODS 層數(shù)據(jù)只能被 DWD 引用。

DWS/ADS/DM 層完善度:考核匯總數(shù)據(jù)的完善度,一般主要看匯總數(shù)據(jù)能直接滿足多少查詢需求(也就是用匯總層數(shù)據(jù)的查詢比例衡量)。如果匯總數(shù)據(jù)無法滿足需求,使用數(shù)據(jù)的人就必須使用明細數(shù)據(jù),甚至是原始數(shù)據(jù),可以用匯總數(shù)據(jù)查詢比例衡量DWS/ADS/DM 層完善度

–匯總數(shù)據(jù)查詢比例:DWS/ADS/DM 層的查詢占所有查詢的比例。要明確的是,這個跟跨層引用率不同,匯總查詢比例不可能做到 100%,但值越高,說明上層的數(shù)據(jù)建設(shè)越完善,對于使用數(shù)據(jù)的人來說,查詢速度和成本會減少,用起來會更順暢。

二、數(shù)倉復(fù)用度衡量指標(biāo)

數(shù)據(jù)中臺核心是追求模型的復(fù)用和共享,通過元數(shù)據(jù)中心的數(shù)據(jù)血緣圖,可以看到,一個比較差的模型設(shè)計,自下而上是一條線。而一個理想的模型設(shè)計,它應(yīng)該是交織的發(fā)散型結(jié)構(gòu)??梢杂媚P鸵孟禂?shù)作為指標(biāo),衡量數(shù)據(jù)模型設(shè)計的復(fù)用度。引用系數(shù)越高,說明數(shù)倉的復(fù)用性越好。

模型引用系數(shù):一個模型被讀取,直接產(chǎn)出下游模型的平均數(shù)量。比如一張 DWD 層表被 5 張 DWS 層表引用,這張 DWD 層表的引用系數(shù)就是 5,如果把所有 DWD 層表(有下游表的)引用系數(shù)取平均值,則為 DWD 層表平均模型引用系數(shù), 一般低于 2 比較差,3 以上相對比較好(經(jīng)驗值)。

三、數(shù)倉規(guī)范度衡量指標(biāo)

在數(shù)據(jù)治理初期,我們統(tǒng)計發(fā)現(xiàn)80%的表的字段描述時不全的(不到100%),超過 40% 的表都沒有分層信息,在模型設(shè)計層面,這顯然是不規(guī)范的。

除了看這個表有沒有分層,還要看它有沒有歸屬到主題域(例如交易域)如果沒有歸屬主題域,就很難找到這張表,也無法復(fù)用。

其次,你要看表的命名。拿order_detai這個命名為例,當(dāng)你看到這個表時,知道它是哪個主題域、業(yè)務(wù)過程?是全量數(shù)據(jù)的表,還是每天的增量數(shù)據(jù)?

總的來說,通過這個表名獲取的信息太有限了。一個規(guī)范的表命名應(yīng)該包括主題域、分層、表是全量快照,還是增量等信息。

除此之外,如果在表 A 中用戶 ID 的命名是 UserID,在表 B 中用戶 ID 命名是 ID,就會對使用者造成困擾,這到底是不是一個東西。所以我們要求相同的字段在不同的模型中,它的命名必須是一致的。

常用的規(guī)范性指標(biāo)可以從數(shù)據(jù)標(biāo)準治理的核心角度設(shè)定,比如,字段描述覆蓋率,模型分層信息覆蓋率、命名不規(guī)范表占比等

總之,評價數(shù)據(jù)倉庫建設(shè)好壞需要從多個維度進行考量,包括外部評價標(biāo)準和內(nèi)部評價標(biāo)準。在量化指標(biāo)方面,可以從完善度、復(fù)用度和規(guī)范性三個方面進行衡量,以確保數(shù)據(jù)倉庫能夠為企業(yè)帶來更大的價值。

本文由人人都是產(chǎn)品經(jīng)理作者【數(shù)據(jù)干飯人】,微信公眾號:【數(shù)據(jù)干飯人】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!