聊一聊數(shù)據(jù)報表/數(shù)據(jù)分析的【對數(shù)】日常
編輯導(dǎo)語:互聯(lián)網(wǎng)時代,數(shù)據(jù)分析的重要性不言而喻,數(shù)據(jù)分析也貫穿著整個工作的過程,本篇文章作者分享了數(shù)據(jù)分析的對數(shù)日常以及給出了很多可行的方法,希望對你有幫助。
一、數(shù)據(jù)比對的痛
“這數(shù)不對”。
“為什么A這里的數(shù)據(jù)和B的數(shù)據(jù)不一致?”
“為什么平時這個數(shù)是C今天變成了D?”
“為什么這么高?”亦或是“為什么這么低?”
——【我的對數(shù)日?!?/p>
一旦有人對某數(shù)據(jù)提出質(zhì)疑,就會開始令所有人崩潰的對數(shù)。
尤其是經(jīng)營分析會、月度會議期間,數(shù)據(jù)團隊面臨反復(fù)且高頻的折磨,不同需求方不同角度都等著回答和解釋。
- 領(lǐng)導(dǎo):不理解,為什么沒有人能給出來正確的數(shù)據(jù)?
- 業(yè)務(wù):技術(shù)給的結(jié)果不準(zhǔn)…數(shù)據(jù)質(zhì)量差,又不能用,又要自己算,數(shù)據(jù)量太大算不動。
- 數(shù)據(jù)團隊:數(shù)據(jù)不是我錄的、業(yè)務(wù)數(shù)據(jù)庫不是我設(shè)計的、指標(biāo)邏輯也不是我定義的、運營邏輯和策略調(diào)整對數(shù)據(jù)的影響我也不知道。數(shù)據(jù)根據(jù)邏輯加工出來就是這個樣子,不是你想要的,我該解釋什么?
非常無辜,非常無語,活還是要干!
不考慮模型設(shè)計、不講數(shù)據(jù)治理、制度和流程梳、不談組織合理性、不談數(shù)據(jù)意識和數(shù)據(jù)團隊地位,不與業(yè)務(wù)battle。
落在當(dāng)下,必須要面對的工作面前,只是想聊一聊“對數(shù)到底應(yīng)該怎么對?”
希望通過這篇文章與數(shù)據(jù)相關(guān)從業(yè)的朋友聊一聊“面對常態(tài)化數(shù)據(jù)質(zhì)疑的處理方式,在不同的場景下數(shù)據(jù)團隊的觀點輸出”。
二、對數(shù)對數(shù),對的是什么
1. 數(shù)據(jù)比對的場景
- 新舊指標(biāo)對比,新指標(biāo)上線替換就應(yīng)用;
- 全新指標(biāo)上線,證實數(shù)據(jù)準(zhǔn)確;
- 同預(yù)期不符或數(shù)據(jù)波動大,進行數(shù)據(jù)查驗;
- 應(yīng)用端數(shù)據(jù)不一致,維度匯總不一致給出解釋;
- 數(shù)據(jù)A和相關(guān)數(shù)據(jù)B不匹配,交叉驗證。
2. 數(shù)據(jù)團隊的心態(tài)
數(shù)據(jù)技術(shù)有門檻,但數(shù)據(jù)是公司的數(shù)據(jù)、是業(yè)務(wù)的數(shù)據(jù)。
數(shù)據(jù)本身沒有價值,數(shù)據(jù)脫離業(yè)務(wù)應(yīng)用,就只是磁盤上的文件而已。
對數(shù)占用了數(shù)據(jù)團隊大量的時間和精力,消耗耐心和斗志,這種情況下應(yīng)秉持怎樣的心態(tài)?
下面是數(shù)據(jù)團隊避無可避的問題:
1)提升團隊數(shù)據(jù)素養(yǎng)
- 對數(shù)屬于不復(fù)雜但大多數(shù)人做不好事情,好的數(shù)據(jù)團隊人人都是數(shù)據(jù)分析師,具有數(shù)據(jù)思維,懂業(yè)務(wù)。
- 清楚業(yè)務(wù)規(guī)則,懂業(yè)務(wù)數(shù)據(jù)流向。清楚數(shù)據(jù)映射的業(yè)務(wù)流程,識別數(shù)據(jù)問題的業(yè)務(wù)構(gòu)成。
- 遇到問題知道從什么地方分析原因,知道要看什么數(shù)據(jù)。
2)提升公司數(shù)據(jù)意識和數(shù)據(jù)產(chǎn)品的可信度
- 數(shù)據(jù)有天然門檻和屏障,如何拉齊各方的認(rèn)知?
- 如何方便用戶去使用數(shù)據(jù)?當(dāng)不缺數(shù)據(jù)的時候,如何有效使用數(shù)據(jù)?如何給用戶呈現(xiàn)數(shù)據(jù)?
- 產(chǎn)品思維,數(shù)據(jù)是結(jié)果但對數(shù)據(jù)的理解是主觀的。
- 如何直觀、不引導(dǎo)的客觀呈現(xiàn)數(shù)據(jù)?
3)解放人力實現(xiàn)自動化
- 化被動為主動,怎樣從無盡的對數(shù)中抽離。
- 能提前識別異常、提示變動、給出對照。
- 數(shù)據(jù)穩(wěn)定,線下數(shù)據(jù)走通后,便可以逐步切線上,固化比對邏輯。
3. 對數(shù)對數(shù),對的是什么
對數(shù)就是實際和預(yù)期的彌合,為什么A不是B?
A是數(shù)據(jù)部門輸出的數(shù)據(jù),B可能是之前某版本的數(shù)據(jù)、可能是心理預(yù)期、可能是某業(yè)務(wù)線的手工數(shù)據(jù)、可能是去年同期數(shù)據(jù)、可能是上個月的數(shù)據(jù)。
解決方案有幾種:證實“A是對的”;證否“B是錯的”。
證實”A/B都是對的,但有cdef造成了兩者的數(shù)據(jù)差異”。
都要給出結(jié)論、對照和明細(xì)憑據(jù)。
三、通用可復(fù)制的方法
數(shù)據(jù)比對是有目的的數(shù)據(jù)分析。
著名的咨詢公司Gartner于2013年總結(jié)、歸納、提煉出一套數(shù)據(jù)分析的框架,Gartner把數(shù)據(jù)分析分為四個層次,分別是:
- 描述性分析(Descriptive Analysis)——發(fā)生了什么?
- 診斷性分析(Diagnostic Analysis) ——為什么會發(fā)生?
- 預(yù)測性分析(Predictive Analysis) ——什么可能會發(fā)生?
- 處方性分析(Prescriptive Analysis) ——該做些什么?
數(shù)據(jù)比對是描述性分析,即對數(shù)據(jù)現(xiàn)狀拆解出數(shù)據(jù)依據(jù)。
那么數(shù)據(jù)比對的過程,就是描述性數(shù)據(jù)分析的過程,可按以下順序進行:
- 確認(rèn)分析的目的和思路;
- 數(shù)據(jù)準(zhǔn)備、處理及分析;
- 撰寫數(shù)據(jù)結(jié)論及報告。
下面具體說如何操作,讓觀點可執(zhí)行。
1. 確認(rèn)分析的目的和思路
1)假設(shè)驗證確認(rèn)分析思路
(1)明確對照項[A-B]
確定問題,明確目標(biāo),得出A、B哪個正確?差異原因。
首先明確對照項A、B的定義,判斷其定義、口徑、算法是否一致?
(2)對照指標(biāo)數(shù)據(jù)流向及構(gòu)成
對照數(shù)據(jù)流向,分析數(shù)據(jù)構(gòu)成及計算過程。
確認(rèn)比對項,時間、口徑、統(tǒng)計粒度,度量和維度做篩選還是過濾。
(3)收集數(shù)據(jù)進行證偽推斷,得出結(jié)論
準(zhǔn)備基礎(chǔ)明細(xì)數(shù)據(jù),導(dǎo)入excel,通過vlookup、透視表等關(guān)聯(lián)分析,關(guān)系走通,記錄過程數(shù)據(jù),提供結(jié)果數(shù)據(jù)。
Example:統(tǒng)計結(jié)果比對(數(shù)值1vs數(shù)據(jù)2,差異值)、12明細(xì)、差異明細(xì)比較。
Tips:明確分析目的和方案前,別急著到處要數(shù),可能費力要了又用不上。
2. 數(shù)據(jù)一致性驗證方式
1)基礎(chǔ)認(rèn)識一致性驗證
- 指標(biāo)的設(shè)計過程:定義、計算公式、統(tǒng)計維度(時間)、維度含義、屬性定義。
- 指標(biāo)的技術(shù)屬性:技術(shù)方式、數(shù)據(jù)源、更新時間。
Example 1:實時、離線指標(biāo)不一致屬于正常情況,可直接解釋原因:
- 更新時間天然不同,離線為批處理定時調(diào)度任務(wù)模式,而實時對數(shù)據(jù)的時序性有要求,在某些場景并不能保證與離線同等的一致性;
- 計算邏輯無法對齊,離線邏輯相對復(fù)雜,支持補償邏輯,實時處理卻相對比較簡單;
- 數(shù)據(jù)源不一致,比如日志在一些場景不能做到完全一致。
Example 2:回款率單位為%,城市結(jié)果值求平均并不等于全國數(shù)值,也可直接告知業(yè)務(wù)原因。
2)正向驗證
- 確認(rèn)是否是業(yè)務(wù)正常變動,如大促暴漲、廣告行業(yè)的1&2月淡季周期性異常。
- 交叉維度匯總不一致,數(shù)據(jù)缺失向上匯總記錄的處理方式。
3)反向驗證
- 任務(wù)是否正常?數(shù)據(jù)是否更新?集群崩潰、任務(wù)失敗、任務(wù)超時、源數(shù)據(jù)系統(tǒng)字段變更;
- 處理過程是否正常?數(shù)據(jù)漂移、數(shù)據(jù)發(fā)散、數(shù)據(jù)傾斜;
- 業(yè)務(wù)口徑數(shù)據(jù)和數(shù)據(jù)庫數(shù)據(jù)映射是否一致?不同含義指標(biāo)取相同名字。
2. 數(shù)據(jù)準(zhǔn)備、處理及分析
1)數(shù)據(jù)準(zhǔn)備
在分析思路確定的基礎(chǔ)上,準(zhǔn)備收集準(zhǔn)備數(shù)據(jù),可能是:系統(tǒng)導(dǎo)出、數(shù)據(jù)提取。
2)數(shù)據(jù)處理(清洗、轉(zhuǎn)化、提取、計算)
基礎(chǔ)數(shù)據(jù)準(zhǔn)備完畢,按既定的思路計算、比對,加工需要的可用于分析的數(shù)據(jù)。
3)數(shù)據(jù)分析(數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘、數(shù)據(jù)呈現(xiàn))
比對后發(fā)現(xiàn)并分析差異,用適當(dāng)?shù)姆治龇椒肮ぞ撸O大多數(shù)場景Excel足夠),對處理過的數(shù)據(jù)進行分析,提取有價值的信息,形成有效結(jié)論。
3. 數(shù)據(jù)結(jié)論及報告
1)明確結(jié)論
- 哪個數(shù)據(jù)是準(zhǔn)確的?是什么造成了數(shù)據(jù)差異,數(shù)據(jù)差異的構(gòu)成和占比差異是否合理?
- 是否需要進行修正,計劃、難點分別是什么。
2)結(jié)果呈現(xiàn)
數(shù)據(jù)比對的報告不需要精致,能夠做到邏輯清晰,圖表搭配,層次分明。
讓閱讀者一目了然理解差異和差異構(gòu)成就可以進行結(jié)果數(shù)值比對、差異明細(xì)、對照過程及明細(xì)。
呈現(xiàn)餅圖和柱形圖足夠了,柱形圖看差異,餅圖看差異構(gòu)成。
四、?數(shù)據(jù)人的下一步
應(yīng)對被動的數(shù)據(jù)比對之后,如何化被動為主動,進行常態(tài)化的數(shù)據(jù)監(jiān)控,不再耗心費力疲于應(yīng)對,提升數(shù)據(jù)健康度,對數(shù)據(jù)異動監(jiān)控提示,實現(xiàn)數(shù)據(jù)可用可查有提示可預(yù)警。
唯一且艱難的道路:有數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)是基礎(chǔ),在制定數(shù)據(jù)質(zhì)量計劃的標(biāo)準(zhǔn)上,進行周期性的數(shù)據(jù)質(zhì)量盤點和數(shù)據(jù)治理!
這條道路需要數(shù)據(jù)團隊有決心、信心,有足夠的耐心和體力,去細(xì)致打磨適合企業(yè)的數(shù)據(jù)標(biāo)準(zhǔn)。
需要對每個數(shù)據(jù)域、數(shù)據(jù)實體、數(shù)據(jù)項,甚至到字段、屬性,定義數(shù)據(jù)標(biāo)準(zhǔn),核實數(shù)據(jù)質(zhì)量。
1. 數(shù)據(jù)質(zhì)量
(GB/T 36344-2018 數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn))
Example:
- 完整性:指數(shù)據(jù)元素和數(shù)據(jù)記錄完成性,例如:字段是否存在空值,指標(biāo)數(shù)據(jù)維度是否足夠支撐業(yè)務(wù)分析。
- 準(zhǔn)確性:指數(shù)據(jù)可信度,例如:是否數(shù)據(jù)正確、格式合規(guī)、唯一性、無臟數(shù)據(jù)。
- 一致性:指相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性,如:相同指標(biāo)在不同場景下數(shù)值是否一致。
- 時效性:指基于時間段的正確性、基于時間點及時性、時序性,例如:實時能否保證1分鐘以內(nèi)延時,離線能否保證每天9點定時更新。
(GB/T 36344-2018 數(shù)據(jù)質(zhì)量評價標(biāo)準(zhǔn)-數(shù)據(jù)質(zhì)量評價過程)
2. 數(shù)據(jù)清洗
在建立數(shù)據(jù)規(guī)范的基礎(chǔ)上,就可以進行數(shù)據(jù)質(zhì)量提升的行動,也就是“數(shù)據(jù)清洗”。
數(shù)據(jù)清洗,就是從數(shù)據(jù)庫表中更正和刪除不準(zhǔn)確的數(shù)據(jù)。
1)數(shù)據(jù)清洗
- 識別數(shù)據(jù)問題;
- 評估問題及解決方案;
- 清洗計劃:更正、刪除、合并、替換、補齊;
- 數(shù)據(jù)應(yīng)用及周期性質(zhì)量評估清。
2)數(shù)據(jù)清洗實踐要點
- 數(shù)據(jù)問題是業(yè)務(wù)數(shù)據(jù)問題,需要多方人員參與,全面的考慮上下游聯(lián)動影響,包括產(chǎn)生數(shù)據(jù)的、使用數(shù)據(jù)的。
- 提升源端質(zhì)量是根本之法,增加系統(tǒng)界面端和數(shù)據(jù)庫輸入的的限制,如某些字段非空校驗、數(shù)據(jù)類型校驗、唯一約束等。
- 做好備份!做好備份!做好備份!
3. 監(jiān)控預(yù)警
監(jiān)控預(yù)警是化被動為主動的方法,可根據(jù)數(shù)據(jù)質(zhì)量規(guī)則制定監(jiān)控策略。
通過數(shù)據(jù)質(zhì)量監(jiān)控工具來提示數(shù)據(jù)異?;驍?shù)據(jù)波動,來確保對業(yè)務(wù)數(shù)據(jù)穩(wěn)定的掌控感和保證數(shù)據(jù)的準(zhǔn)確性,問題處理的及時性。
質(zhì)量規(guī)則不再多說,可以聊一聊波動性,什么樣的指標(biāo)波動可以看作是“異?!蹦??
指標(biāo)波動不可怕,數(shù)據(jù)波動是業(yè)務(wù)發(fā)生的正常情況,業(yè)務(wù)產(chǎn)生自然會發(fā)生數(shù)據(jù)變化。
比如每周的銷售額肯定不一樣,脫離業(yè)務(wù)場景沒法談數(shù)據(jù)波動。
但像之前都1000w,這周只有200w,是不是就屬于異常狀態(tài)?
監(jiān)控可以根據(jù)公司業(yè)務(wù)情況和數(shù)據(jù)情況來綜合評定,通過絕對值預(yù)警、相對值預(yù)警兩方面來設(shè)定。
具體的方法有:絕對值、同比環(huán)比、周期平滑、假設(shè)檢驗(3σ原則)、時間序列、算法模型。
4. 提前準(zhǔn)備
在新需求的設(shè)計過程中,就提前準(zhǔn)備數(shù)據(jù)比對的工作。
評估不同線上線下、離線實時的差異,找出可能產(chǎn)生問題的原因并解決,技術(shù)架構(gòu)方案選擇,或預(yù)評估差異。
5. 一些提醒
1)再次強調(diào):業(yè)務(wù)、業(yè)務(wù)、業(yè)務(wù)
數(shù)據(jù)必須和業(yè)務(wù)結(jié)合才有意義,熟悉業(yè)務(wù)才能看到數(shù)據(jù)背后隱藏的信息。
缺乏對行業(yè)、公司業(yè)務(wù)認(rèn)知,數(shù)據(jù)應(yīng)用和數(shù)據(jù)分析結(jié)果都會出現(xiàn)偏離,變成自嗨或者空中樓閣。
要懂上下游數(shù)據(jù),也要弄清楚公司所在行業(yè)結(jié)構(gòu),對行業(yè)的上游和下游的經(jīng)營情況有大致的了解。
2)數(shù)據(jù)敏感度
數(shù)據(jù)本身是客觀的,但被解讀出來的數(shù)據(jù)是主觀的。
同樣的數(shù)據(jù)由不同的人分析很可能得出完全相反的結(jié)論,所以一定不能提前帶著觀點去分析。
Example:比如指標(biāo)預(yù)警沒有合適方法,可暫定波動值超過5%預(yù)警。
如果一個變量符合正態(tài)分布,則其95%的值會落到均值左右二個方差內(nèi)。
3)迭代化思維
業(yè)務(wù)是不斷調(diào)整和發(fā)展的,依托的系統(tǒng)和數(shù)據(jù)也是不斷迭代變化,相應(yīng)指標(biāo)也需要隨著業(yè)務(wù)不斷調(diào)整,更加精確的度量業(yè)務(wù)。
4)精細(xì)度控制好,不要追求極細(xì)
細(xì)分是深入的分析的基礎(chǔ),但不要追求極細(xì),細(xì)分意味著復(fù)雜,要判斷公司團隊數(shù)據(jù)意識和業(yè)務(wù)精細(xì)化管理是否到了匹配的階段。
本文由 @申墨揚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CCO協(xié)議。
作為文科生一名來說,看見數(shù)據(jù)這兩個字就難受。
好家伙!看完文章已經(jīng)開始頭大了,看到數(shù)據(jù)就開始頭疼
數(shù)據(jù)人,數(shù)據(jù)魂,又是學(xué)習(xí)數(shù)據(jù)分析的一天,加油!沖沖沖