做數(shù)據(jù)血緣到底有何價值

0 評論 1688 瀏覽 1 收藏 16 分鐘

數(shù)據(jù)在產(chǎn)生與使用的過程中,會出現(xiàn)各種各樣的問題,我們會針對這些進行治理。例如針對數(shù)據(jù)的準確性、數(shù)據(jù)變更情況、數(shù)據(jù)到底產(chǎn)生了多少價值、數(shù)據(jù)安全性是否可以得到保障等等,本文闡述數(shù)據(jù)血緣分析解決在數(shù)據(jù)治理過程中是如何解決這些問題的。

價值一:破除數(shù)據(jù)質(zhì)疑

在我們?nèi)粘9ぷ鞯倪^程中,相信大家經(jīng)常遇到這樣的場景。業(yè)務人員或者高層領(lǐng)導對于電腦屏幕上的報表中的數(shù)據(jù)或指標數(shù)據(jù),產(chǎn)生了很大的疑問,“這個數(shù)據(jù)偏差這么大,是不是有問題?。俊薄盀槭裁催@個數(shù)據(jù)和線下的不一致,你們的計算邏輯是不是有問題?””為什么都是本月銷售收入這個字段,A系統(tǒng)是這個數(shù),B系統(tǒng)是這個數(shù),你們的數(shù)是用的哪個口徑呢?”……面對這一系列的問題,數(shù)據(jù)部門疲于奔命地去排查打消用戶對報告數(shù)據(jù)的質(zhì)疑。

面對用戶對報告數(shù)據(jù)可靠性、真實性的質(zhì)疑,無非是如下問題導致數(shù)據(jù)可能失真:

  • 及時性問題,大數(shù)據(jù)集群資源不足或者平臺系統(tǒng)故障導致任務延遲;
  • 開發(fā)代碼質(zhì)量問題,取數(shù)口徑不清晰或者不準確導致計算后的數(shù)據(jù)存在錯誤;
  • 業(yè)務規(guī)則計算邏輯變更,系統(tǒng)并未同步更新,導致線上線下數(shù)據(jù)不一致;
  • 數(shù)據(jù)質(zhì)量問題,無論是線上或者線下數(shù)據(jù)存在不準確、不完整、不及時的問題,導致最后數(shù)據(jù)失真;

面對以上的數(shù)據(jù)問題,傳統(tǒng)的排查方式非常冗長且效率不高:

  • 第一步:找到報表指標來源的API接口,確定來源數(shù)據(jù)表。
  • 第二步:查找來源數(shù)據(jù)表對應的數(shù)據(jù)同步任務,以及Hive表的產(chǎn)出任務,查看任務是否正常執(zhí)行完畢。
  • 第三步:找到Hive表加工任務的上游,逐層向上排查,先保證整個鏈路的任務都是正常執(zhí)行的,因為及時性問題是最高頻、常見且容易處理的問題。
  • 第四步:檢查數(shù)據(jù)加工流程各項正常后,再看指標產(chǎn)出表的加工代碼,一是看是否近期有人為變更,二是翻代碼校驗對應的邏輯,按照指標加工的代碼層級逐級定位有問題的數(shù)據(jù)表。
  • 第五步:通過層層排查,定位了問題,但是問題的修復和數(shù)據(jù)重跑需要些時間,得趕緊通知下游,避免錯誤數(shù)據(jù)給業(yè)務帶來的錯誤決策和應用,比如錯把老客算成新客,帶來營銷費用損失等等問題。

一旦檢查出數(shù)據(jù)有異常,印證了用戶的對數(shù)據(jù)真實性、可靠性的顧慮,用戶則逐漸會對數(shù)據(jù)喪失信任感,不僅沒有提升使用數(shù)據(jù)的效率,反而讓數(shù)據(jù)管理人員對每個質(zhì)疑的數(shù)據(jù)進行一遍一遍的鋪排檢查,由于數(shù)據(jù)從生產(chǎn)到賦能業(yè)務應用經(jīng)過很多的處理環(huán)節(jié),業(yè)務端報表或數(shù)據(jù)應用服務異常時,需要第一時間定位問題,排查修復。

如果靠一層一層的人肉翻代碼效率非常低下,一方面數(shù)據(jù)開發(fā)人力花費在排查上,另一方面定位問題時間越長業(yè)務影響和損失越大。

如果利用數(shù)據(jù)血緣分析技術(shù),則可以大大提升排查效率,特別是數(shù)據(jù)血緣的可視化,能讓用戶自主對數(shù)據(jù)來源以及鏈路進行檢查,直觀地發(fā)現(xiàn)數(shù)據(jù)生產(chǎn)鏈路,以及各個環(huán)節(jié)有無異常。

如此一來,則能快速打消終端用戶對報告數(shù)據(jù)可靠性的懷疑。

價值二:數(shù)據(jù)變更影響范圍快速評估

數(shù)據(jù)開發(fā)的過程中,數(shù)據(jù)血緣能夠提供的兩個價值點分別是提升問題解決效率和高效評估數(shù)據(jù)影響。

數(shù)據(jù)血緣單純的數(shù)據(jù)角度來看包含的維度有數(shù)據(jù)庫、表、字段、系統(tǒng)、應用程序,即數(shù)據(jù)存儲在什么數(shù)據(jù)庫的什么表,對應的字段是什么以及字段的屬性,數(shù)據(jù)所屬的系統(tǒng)以及與數(shù)據(jù)有關(guān)的應用程序。

數(shù)據(jù)血緣從業(yè)務角度來看包含的維度主要是數(shù)據(jù)所屬業(yè)務線,涉及到業(yè)務便要梳理清楚數(shù)據(jù)的產(chǎn)生邏輯、數(shù)據(jù)的使用邏輯以及業(yè)務線之間的關(guān)聯(lián)關(guān)系。

數(shù)據(jù)血緣對于數(shù)據(jù)治理至關(guān)重要——包括合規(guī)性、數(shù)據(jù)質(zhì)量、數(shù)據(jù)隱私和安全性。它對于數(shù)據(jù)分析和數(shù)據(jù)科學也很重要。映射和驗證數(shù)據(jù)如何被訪問和更改的能力對于數(shù)據(jù)透明度至關(guān)重要。

它有助于生成特定數(shù)據(jù)來源的詳細記錄。它還顯示了數(shù)據(jù)是如何被更改、影響和使用的。數(shù)據(jù)血緣還可以更輕松地響應合規(guī)性審計和報告查詢。它還通過使組織能夠跟蹤和識別數(shù)據(jù)流中的潛在風險來幫助提高安全狀況。

數(shù)據(jù)血緣可幫助組織采取積極主動的方法來識別和修復業(yè)務應用程序所需的數(shù)據(jù)差距。這對于數(shù)據(jù)分析和客戶體驗計劃特別有用。

收集敏感數(shù)據(jù)會使組織面臨監(jiān)管審查和業(yè)務濫用。數(shù)據(jù)血緣顯示敏感數(shù)據(jù)和其他關(guān)鍵業(yè)務數(shù)據(jù)如何在整個組織中流動。通過這種方式,您可以確保您的策略與現(xiàn)有的控制措施保持一致。

對于 IT 運營,數(shù)據(jù)血緣有助于可視化數(shù)據(jù)更改對下游分析和應用程序的影響。它還有助于了解業(yè)務流程變更的風險。它使您能夠采取更積極主動的方法進行變更管理。它還通過減少耗時的手動流程來提高運營效率,并通過消除重復數(shù)據(jù)和數(shù)據(jù)孤島來降低成本。

此外,數(shù)據(jù)血緣有助于實現(xiàn)成功的云數(shù)據(jù)遷移和推動轉(zhuǎn)型的現(xiàn)代化計劃。數(shù)據(jù)血緣可以幫助可視化不同的數(shù)據(jù)對象和數(shù)據(jù)流如何與數(shù)據(jù)圖相關(guān)和連接。這種更深入的理解使數(shù)據(jù)架構(gòu)師更容易預測移動或更改數(shù)據(jù)將如何影響數(shù)據(jù)本身。預測對依賴它的下游流程和應用程序的影響并驗證更改也變得更加容易。

價值三:數(shù)據(jù)資產(chǎn)價值評估度量工具

在數(shù)字時代,數(shù)據(jù)被普遍認為是一項重要的企業(yè)資產(chǎn)。普遍對于數(shù)據(jù)資產(chǎn)的定義是指個人或企業(yè)擁有或者控制的,能夠為企業(yè)帶來未來經(jīng)濟利益的,以物理或電子的方式記錄的數(shù)據(jù)資源。數(shù)據(jù)資產(chǎn)的關(guān)鍵特征是:

  • 擁有數(shù)據(jù)權(quán)屬((勘探權(quán)、使用權(quán)、所有權(quán)));
  • 有價值;
  • 可計量;
  • 可讀取的數(shù)據(jù)集。

總而言之,使用者越多(需求方)、使用量級越大、更新越頻繁的數(shù)據(jù)往往更有價值。比如CRIC研究中心是易居中國旗下克而瑞信息集團的專業(yè)研發(fā)部門,十年以來一直致力于對房地產(chǎn)行業(yè)及企業(yè)課題的深入探索。

很多企業(yè)花錢購買其調(diào)研成果數(shù)據(jù),這樣的數(shù)據(jù)價值很明顯,就可稱之為企業(yè)資產(chǎn);貴陽大數(shù)據(jù)交易平臺可以將自己的數(shù)據(jù)打包成服務、API提供客戶購買使用;聚合平臺、企查查、天眼查提供企業(yè)信息查詢這都屬于價值很明顯,可兌現(xiàn)價值的數(shù)據(jù)交易,這些數(shù)據(jù)就實實在在的成為企業(yè)間共享的數(shù)據(jù),即為數(shù)據(jù)資產(chǎn)。

所以基于這樣的一些思路,如何讓數(shù)據(jù)成為有價值的資產(chǎn)可能取決于這些數(shù)據(jù)是否現(xiàn)在或者未來具有潛在的交易價值。

基于以上問題,數(shù)據(jù)血緣可以作為數(shù)據(jù)資產(chǎn)價值評估的一個度量工具,具體價值體現(xiàn)如下:

數(shù)據(jù)血緣能夠清晰記錄數(shù)據(jù)的采購、生產(chǎn)成本,即使隨著后續(xù)的加工,數(shù)據(jù)的全周期都能清晰對數(shù)據(jù)的成本進行記錄。解決數(shù)據(jù)資產(chǎn)的初始確認不定的問題。

例如:我們通過數(shù)據(jù)供應商外采的數(shù)據(jù),可以記錄這些數(shù)據(jù)的入賬價值是多少。如果是我們內(nèi)部通過人工加工形成的數(shù)據(jù)指標等資產(chǎn),那可以繼續(xù)追蹤血緣數(shù)據(jù)的成本價值是多少,并最終形成匯總。

由于數(shù)據(jù)血緣體現(xiàn)了數(shù)據(jù)的多源性,每個數(shù)據(jù)項在進行加工處理的過程中,我們可以進一步對形成的數(shù)據(jù)資產(chǎn)進行確認。例如某項指標數(shù)據(jù),涉及到的數(shù)據(jù)匯總加工,都可以分攤其成本。

數(shù)據(jù)血緣關(guān)系,體現(xiàn)了數(shù)據(jù)的生命周期,體現(xiàn)了數(shù)據(jù)從產(chǎn)生到消亡的整個過程。當數(shù)據(jù)被封存或者銷毀后,實際就代表了記錄數(shù)據(jù)資產(chǎn)的使用壽命。從而能進一步去對資產(chǎn)的價進行度量。特別是隨著業(yè)務地發(fā)展數(shù)據(jù)不斷增長,任務、數(shù)據(jù)表只增不減會不斷膨脹大數(shù)據(jù)資源成本。

通過構(gòu)建全面準確的全鏈路數(shù)據(jù)血緣,就可以找出數(shù)據(jù)下游應用方,做好溝通和信息同步,長期沒有調(diào)用的服務,及時做下線處理,節(jié)省數(shù)據(jù)成本。

數(shù)據(jù)資產(chǎn)需要考慮數(shù)據(jù)有沒有流通(也就說我們說的拉通共享)我們絕大部分的數(shù)據(jù)項目,都是服務內(nèi)部管理場景的需求。

而我們也需要考慮一些參考數(shù)據(jù),是否有流通在市場上,例如公布在官方網(wǎng)站上的報表、經(jīng)營數(shù)據(jù)、技術(shù)指標等等,形成流通的數(shù)據(jù)資產(chǎn)(產(chǎn)品化)。

無論是內(nèi)部使用、還是提供給外部共享的數(shù)據(jù),我們都需要衡量其價值。這就需要利用類似于數(shù)據(jù)血緣的技術(shù),去做數(shù)據(jù)資產(chǎn)的在線化登記。

將數(shù)據(jù)價值度量形成資產(chǎn)化,一方面可以有利于數(shù)據(jù)共享交易過程中的定價,另外一個非常重要的方面就是依據(jù)數(shù)據(jù)資產(chǎn)可量化的價值,形成數(shù)據(jù)安全的保護等級。

傳統(tǒng)的數(shù)據(jù)安全保護等級評估,往往完全依靠相關(guān)法規(guī)要求和業(yè)務經(jīng)驗,缺少在具體應用場景中的評估依據(jù),評估脫離了數(shù)據(jù)的應用場景和真實的業(yè)務價值。

而數(shù)據(jù)血緣則提供了一種基于數(shù)據(jù)實際應用的評估方法:使用者越多(需求方)、使用量級越大、價值越大、更新越頻繁的數(shù)據(jù)安全保護等級就應該越高。

總而言之,要將數(shù)據(jù)資產(chǎn)化,就必須要圍繞“數(shù)據(jù)價值鏈”去構(gòu)思一系列制度和技術(shù)手段,確保價值可以量化,可以度量。而數(shù)據(jù)血緣是將原始數(shù)據(jù)、數(shù)據(jù)資源到數(shù)據(jù)產(chǎn)品、數(shù)據(jù)資產(chǎn)的過程顯現(xiàn)化的關(guān)鍵技術(shù)。

價值四:為數(shù)據(jù)濫用加上一把“道德”之鎖

近年來,大數(shù)據(jù)讓公眾的生活變得越來越便捷,但隨之而來的大數(shù)據(jù)殺熟、濫用人臉識別技術(shù)、過度索取權(quán)限等亂象,損害了公眾的合法利益。面對各種亂象,公眾往往苦不堪言,卻又束手無策。

而數(shù)據(jù)濫用的主要原因之一就是大量數(shù)據(jù)被超級平臺占有,數(shù)據(jù)在生產(chǎn)、收集、流通、使用等過程中的產(chǎn)權(quán)歸屬不清。

對以上挑戰(zhàn),我們也逐步完善了不少安全措施,例如:進行訪問控制和隔離,實施多租戶訪問隔離措施,數(shù)據(jù)安全分類分級劃分,支持基于標簽的強制訪問控制,提供基于ACL的數(shù)據(jù)訪問授權(quán)模型,提供數(shù)據(jù)視圖的訪問控制。并提供數(shù)據(jù)脫敏和加密功能、統(tǒng)一的密鑰管理和訪問鑒權(quán)服務、數(shù)據(jù)訪問審計日志等等。

值得重點注意的,數(shù)據(jù)血緣分析技術(shù)是解決數(shù)據(jù)濫用的關(guān)鍵手段,通過數(shù)據(jù)血緣的追蹤,我們能確認數(shù)據(jù)的源頭、OWNER和數(shù)據(jù)的流向。

這樣我們可以提供采集、存儲、使用、傳輸、共享、發(fā)布、銷毀等基于數(shù)據(jù)生命周期的具體信息,有的放矢的去進行管理措施。特別是解決數(shù)據(jù)產(chǎn)生方和使用方、挖掘方的權(quán)利關(guān)系,有利于數(shù)據(jù)確權(quán)后避免濫用的情況發(fā)生。

數(shù)據(jù)血緣間接提供了一種合規(guī)機制,用于審計、改進風險管理,并確保數(shù)據(jù)的存儲和處理符合數(shù)據(jù)治理政策和法規(guī)。例如,2016 年制定了 GDPR 立法,以保護歐盟和歐洲經(jīng)濟區(qū)人員的個人數(shù)據(jù),讓個人能夠更好地控制自己的數(shù)據(jù)。

在美國,加利福尼亞州等個別州制定了《加利福尼亞消費者隱私法》(CCPA) 等政策,該法案要求企業(yè)告知消費者其數(shù)據(jù)的收集情況。這種類型的立法使這些數(shù)據(jù)的存儲和安全成為重中之重,如果沒有數(shù)據(jù)血緣分析技術(shù)或者相關(guān)工具,組織會發(fā)現(xiàn)不合規(guī)問題是一項耗時且昂貴的工作。

數(shù)據(jù)血緣是數(shù)據(jù)精細化管控時代的一把利器,如果企業(yè)能夠用好它,必將在數(shù)據(jù)資產(chǎn)領(lǐng)域大有可為。

本文由人人都是產(chǎn)品經(jīng)理作者【老司機聊數(shù)據(jù)】,微信公眾號:【老司機聊數(shù)據(jù)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!