怎么保障企業(yè)數(shù)據(jù)倉庫中的數(shù)據(jù)質(zhì)量?
不同的企業(yè)以及企業(yè)的不同發(fā)展階段,關(guān)于數(shù)倉數(shù)據(jù)質(zhì)量保障的要求都不盡相同。文章從互聯(lián)網(wǎng)公司發(fā)展的各個階段對數(shù)據(jù)質(zhì)量管理的要求,以及常見的數(shù)據(jù)質(zhì)量衡量標準和通用的數(shù)據(jù)質(zhì)量管理流程出發(fā),分享了關(guān)于數(shù)據(jù)質(zhì)量管理的相關(guān)經(jīng)驗。
前段時間被問起:公司的數(shù)據(jù)質(zhì)量管理是怎么控制的?基于目前大部分互聯(lián)網(wǎng)公司的數(shù)據(jù)部門都會建設(shè)集團數(shù)據(jù)倉庫,上層數(shù)據(jù)產(chǎn)品的數(shù)據(jù)來源也基本上來自數(shù)據(jù)倉庫。所以,這個問題我理解為:怎么保障企業(yè)數(shù)據(jù)倉庫中的數(shù)據(jù)質(zhì)量?
結(jié)合以往的數(shù)據(jù)項目經(jīng)驗,我做了簡單的回答:
(1)數(shù)據(jù)基礎(chǔ)建設(shè)
想要有一個高質(zhì)量的數(shù)據(jù)倉庫,那么首先從數(shù)據(jù)倉庫的設(shè)計上,我們就得有一個主題域完善,層級分明(通常分為ODS【數(shù)據(jù)源表層】,DWD【數(shù)據(jù)明細層】,DWS【數(shù)據(jù)匯總層】,DWA【數(shù)據(jù)應(yīng)用層】),且數(shù)據(jù)消費場景明確,數(shù)據(jù)加工鏈路清晰的數(shù)據(jù)倉庫體系。
有了這個基礎(chǔ)之后,我們才能對不同主題域,不同層級的數(shù)據(jù)分別進行監(jiān)控。
(2)數(shù)據(jù)處理監(jiān)控
通過數(shù)據(jù)血緣關(guān)系管理,監(jiān)控并定位數(shù)據(jù)處理鏈路上出問題的執(zhí)行節(jié)點,通過系統(tǒng)或者郵件或企業(yè)員工管理平臺通知到相應(yīng)的負責(zé)人。
(3)業(yè)務(wù)系統(tǒng)調(diào)整響應(yīng)
一是新增業(yè)務(wù)模塊,導(dǎo)致有新的數(shù)據(jù)需要及時接入到數(shù)據(jù)倉庫中。
二是業(yè)務(wù)模塊變更,導(dǎo)致數(shù)倉中某些指標的歷史統(tǒng)計口徑發(fā)生了改變。
無論是哪一種,除了借助相應(yīng)的發(fā)布平臺工具之外,同時還需要規(guī)范及優(yōu)化人為干預(yù)流程,降低業(yè)務(wù)部門與數(shù)據(jù)部門的溝通成本,提升數(shù)據(jù)部門的數(shù)據(jù)輸出質(zhì)量及數(shù)據(jù)響應(yīng)速度。
雖然對于不同的企業(yè)以及企業(yè)的不同發(fā)展階段,關(guān)于數(shù)倉數(shù)據(jù)質(zhì)量保障的要求都不盡相同,但是都有相關(guān)的方法論可以參考。
下面從互聯(lián)網(wǎng)公司發(fā)展的各個階段對數(shù)據(jù)質(zhì)量管理的要求,以及常見的數(shù)據(jù)質(zhì)量衡量標準和通用的數(shù)據(jù)質(zhì)量管理流程來聊聊數(shù)據(jù)質(zhì)量管理那些事兒。
一、從公司發(fā)展周期看數(shù)據(jù)質(zhì)量管理
1. 發(fā)展初期
業(yè)務(wù)模式不清晰,各條業(yè)務(wù)線都處于快速試錯階段,數(shù)據(jù)體量也不大,數(shù)據(jù)的輸出相對簡單,數(shù)據(jù)質(zhì)量問題還沒有那么突出。
這時候關(guān)于數(shù)據(jù)就是一個“快”字,需要及時的提供數(shù)據(jù)支撐,幫助業(yè)務(wù)及產(chǎn)品迅速完成產(chǎn)品的迭代及業(yè)務(wù)模式的探索。所以更注重的是數(shù)據(jù)的快速接入,分析報表的快速輸出。
2. 發(fā)展中期
各條業(yè)務(wù)線的業(yè)務(wù)模式都已經(jīng)趨于成熟,數(shù)據(jù)體量呈指數(shù)式增長。由于需要經(jīng)常提供跨業(yè)務(wù)系統(tǒng)的數(shù)據(jù)分析,以及各種算法模型的數(shù)據(jù)支撐,這時候再回頭想從眼花繚亂的數(shù)據(jù)表中及時的提供準確的數(shù)據(jù)內(nèi)容,就顯得極其困難。
這個時候關(guān)于數(shù)據(jù)就是一個“理”字,這里的“理”是“梳理”和“治理”的意思,梳理我們的所有業(yè)務(wù)內(nèi)容并治理我們的數(shù)據(jù)。這個時候就得按照數(shù)據(jù)質(zhì)量管理的流程,開展一系列數(shù)據(jù)治理工作,建設(shè)公司的數(shù)據(jù)質(zhì)量管理規(guī)范。同時,也要從戰(zhàn)略層面上打造集團的數(shù)據(jù)中臺,通過及時準確的數(shù)據(jù)響應(yīng),賦能前臺業(yè)務(wù)快速增長。
3. 發(fā)展穩(wěn)定期
這時候公司處于一個穩(wěn)定增長的狀態(tài),可能也會進行一些新業(yè)務(wù)模式的嘗試,但是總體發(fā)展趨于穩(wěn)定。伴隨著中期的數(shù)據(jù)治理過程,整個數(shù)據(jù)團隊的組織架構(gòu)也趨于完善,如大數(shù)據(jù)數(shù)倉組,算法組,研發(fā)組,測試組,產(chǎn)品組等。
這時候關(guān)于數(shù)據(jù)就是一個“穩(wěn)”字,這里的“穩(wěn)”是“穩(wěn)發(fā)展”和“穩(wěn)創(chuàng)新”的意思?!胺€(wěn)發(fā)展”是指整個數(shù)據(jù)中心的規(guī)模及狀態(tài)穩(wěn)步發(fā)展,包括框架的穩(wěn)步迭代更新以及整體架構(gòu)的逐步優(yōu)化?!胺€(wěn)創(chuàng)新”是指數(shù)據(jù)中臺要穩(wěn)定的像前臺輸出一些創(chuàng)新性的數(shù)據(jù)產(chǎn)品,幫助業(yè)務(wù)部門挖掘新的業(yè)務(wù)模式和變現(xiàn)渠道。
二、數(shù)據(jù)質(zhì)量衡量標準
1. 完整性
主要包括實體缺失、屬性缺失、記錄缺失和字段值缺失四方面。
2. 準確性&合理性
數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準確、是否存在異?;蛘咤e誤的信息。主要包括格式、類型、值域和業(yè)務(wù)規(guī)則的合理有效。
3. 一致性
系統(tǒng)之間的數(shù)據(jù)差異和相互矛盾的一致性,業(yè)務(wù)指標統(tǒng)一定義,數(shù)據(jù)邏輯加工結(jié)果一致性。
4. 及時性
數(shù)據(jù)倉庫ETL、應(yīng)用展現(xiàn)的及時和快速性,Jobs運行耗時、運行質(zhì)量、依賴運行及時性。
圖一:數(shù)據(jù)衡量標準說明
三、數(shù)據(jù)質(zhì)量管理流程
數(shù)據(jù)質(zhì)量管理流程:通過劃分數(shù)據(jù)資產(chǎn)等級和分析元數(shù)據(jù)的應(yīng)用鏈路,對不同資產(chǎn)等級的數(shù)據(jù)采取相對應(yīng)的質(zhì)量管理方式。
1. 數(shù)據(jù)資產(chǎn)等級劃分
分析業(yè)務(wù)場景,根據(jù)應(yīng)用的影響程度,確定當前以及生產(chǎn)鏈路上的數(shù)據(jù)資產(chǎn)等級。
2. 數(shù)據(jù)加工過程校驗
在各個加工環(huán)節(jié)上根據(jù)不同資產(chǎn)等級對數(shù)據(jù)采取不同的質(zhì)量管理方式。
3. 數(shù)據(jù)處理風(fēng)險監(jiān)控
對數(shù)據(jù)加工過程中存在的風(fēng)險點進行監(jiān)控,包括數(shù)據(jù)質(zhì)量風(fēng)險和數(shù)據(jù)及時性。
圖二:數(shù)據(jù)質(zhì)量管理流程圖
四、后續(xù)
通過以上內(nèi)容,我們對數(shù)據(jù)質(zhì)量管理有了一個初步的認知,也了解了數(shù)據(jù)質(zhì)量衡量標準以及數(shù)據(jù)質(zhì)量管理流程。相信大家對數(shù)據(jù)質(zhì)量管理的實施過程和思路也有了大致的了解。下一篇文章,我會拆解數(shù)據(jù)質(zhì)量管理流程,詳細介紹數(shù)據(jù)資產(chǎn)等級劃分,數(shù)據(jù)加工過程校驗及數(shù)據(jù)處理風(fēng)險監(jiān)控等的實施方法論。感謝各位的支持與關(guān)注,希望后續(xù)有更多高質(zhì)量的文章與大家分享!
數(shù)據(jù)產(chǎn)品路上,與君共勉!
本文由 @BennettC 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)訓(xùn)練營》終于在起點學(xué)院(人人都是產(chǎn)品經(jīng)理旗下教育機構(gòu))上線啦!經(jīng)過迭代優(yōu)化,現(xiàn)在已經(jīng)第7期開啟報名啦
本課程非常適合新手數(shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運營等人群。
課程會從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實戰(zhàn),幫助大家構(gòu)建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。
學(xué)完后你會掌握怎么建指標體系、指標字典,如何設(shè)計數(shù)據(jù)埋點、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實際工作技能~
現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!
贊