當(dāng)我們?cè)谧鰯?shù)據(jù)異常分析時(shí),我們?cè)诜治鍪裁?/h2>
![](http://image.woshipm.com/wp-files/img/62.jpg)
數(shù)據(jù)異常分析,是數(shù)據(jù)分析工作中最常見(jiàn)且重要的分析主題,本文總結(jié)了數(shù)據(jù)分析的一般過(guò)程和方法,希望后續(xù)的分析在此基礎(chǔ)上不斷優(yōu)化。
一、背景
數(shù)據(jù)異常分析,是數(shù)據(jù)分析工作中最常見(jiàn)且重要的分析主題,通過(guò)一次次的異常分析來(lái)明確造成數(shù)據(jù)波動(dòng)的原因,建立日常的的運(yùn)營(yíng)工作和數(shù)據(jù)波動(dòng)之間的相關(guān)性以及貢獻(xiàn)程度的概念,從而找到促進(jìn)數(shù)據(jù)增長(zhǎng)的途徑,改變數(shù)據(jù)結(jié)果。
![](https://image.woshipm.com/wp-files/2018/04/CWeT04rmsAww1n9cqIDQ.jpg)
本文總結(jié)了數(shù)據(jù)分析的一般過(guò)程和方法,希望后續(xù)的分析在此基礎(chǔ)上不斷優(yōu)化。
二、問(wèn)題界定
收集到的數(shù)據(jù)分析需求可能是類似于轉(zhuǎn)化率最近在下降,詢盤(pán)量有點(diǎn)上升。這種描述,其實(shí)并沒(méi)有把問(wèn)題界定與描述清楚。首要便是對(duì)數(shù)據(jù)波動(dòng)進(jìn)行界定,如果問(wèn)題沒(méi)有界定清楚,后續(xù)的數(shù)據(jù)分析也就失去了價(jià)值。
問(wèn)題界定需要解決以下疑問(wèn),判斷數(shù)據(jù)波動(dòng)是否為異常?異常的范圍、波動(dòng)的程度,是否需要深入分析?
數(shù)據(jù)異常判定的理論基礎(chǔ)如下:假設(shè)指標(biāo)服從均值為μ和標(biāo)準(zhǔn)差δ的正態(tài)分布,處于(負(fù)無(wú)窮大, μ-3σ] 和[μ+3σ, 正無(wú)窮)范圍時(shí),樣本的概率為0.26%,這是一個(gè)小概率事件,我們稱其為3倍標(biāo)準(zhǔn)差下的異常點(diǎn)。
![](https://image.woshipm.com/wp-files/2018/04/jCEX5oaPTo6qrmtZC3V3.png)
正態(tài)分布圖
如果指標(biāo)的樣本數(shù)據(jù)為k 個(gè),并記錄為x1,x2,x3,…,xk,則閾值的計(jì)算步驟如下:
- 計(jì)算指標(biāo)平均值,公式如下:x =Σxi/k;
- 計(jì)算樣本的移動(dòng)極差,公式如下:MR=|Xi-Xi-1|;
- 計(jì)算移動(dòng)極差均值(k 個(gè)樣本數(shù)據(jù)產(chǎn)生k-1 個(gè)移動(dòng)極差),公式如下:MR =ΣMRi/k-1;
- 計(jì)算CL,公式如下:CL = x;
- 計(jì)算UCL 和LCL(在3 倍標(biāo)準(zhǔn)差情況下)。公式如下:UCL= x +3×MR/d2;LCL= x -3×MR/d2,其中d2 等于1.128。
超過(guò)UCL和LCL的則為異常,如果數(shù)據(jù)有明顯的周期性和季節(jié)性,需去除相關(guān)因素之后再利用以上辦法計(jì)算閾值。
三、問(wèn)題分析
分析方法為基準(zhǔn)對(duì)比分析,選取數(shù)據(jù)變化前后可對(duì)比的時(shí)間段進(jìn)行對(duì)比。
3.1 明確引起指標(biāo)異常的相關(guān)指標(biāo)
分析思路為先對(duì)異常指標(biāo)進(jìn)行拆解,確保指標(biāo)拆到最細(xì)粒度的原子指標(biāo),然后評(píng)估相關(guān)的指標(biāo)的影響程度。
1)指標(biāo)拆解方法
拆解的方法為杜邦分析,示例如下:
![](https://image.woshipm.com/wp-files/2018/04/b4HSSy1RqQ06j509LqGm.png)
相關(guān)指標(biāo)拆解示意圖
2)貢獻(xiàn)度的衡量
將變化的量分解到相關(guān)的最細(xì)粒度指標(biāo),對(duì)比前后2個(gè)時(shí)間段上最細(xì)粒度指標(biāo)的變化,明確是哪一個(gè)指標(biāo)的波動(dòng)對(duì)這個(gè)指標(biāo)的波動(dòng)貢獻(xiàn)度最大。比如:詢盤(pán)量轉(zhuǎn)化率上升,而詢盤(pán)量轉(zhuǎn)化率=詢盤(pán)量/會(huì)話量,細(xì)分轉(zhuǎn)化率的上升是詢盤(pán)量的上升導(dǎo)致還是會(huì)話量的下降導(dǎo)致,各自貢獻(xiàn)的比例為多少?
詢盤(pán)轉(zhuǎn)化率的波動(dòng)=詢盤(pán)轉(zhuǎn)化率2-詢盤(pán)轉(zhuǎn)化率1=詢盤(pán)量2/會(huì)話量2? -詢盤(pán)量1/會(huì)話量1
假設(shè)在詢盤(pán)量不變的情況下:
會(huì)話量對(duì)轉(zhuǎn)化率的波動(dòng)貢獻(xiàn)=詢盤(pán)量1/會(huì)話量2? -詢盤(pán)量1/會(huì)話量1
假設(shè)在會(huì)話量不變的情況下:
詢盤(pán)量對(duì)轉(zhuǎn)化率的波動(dòng)貢獻(xiàn)=詢盤(pán)量2/會(huì)話量2? -詢盤(pán)量1/會(huì)話量2
3.2 單指標(biāo)多維度的分析
能在一個(gè)指標(biāo)能拆分成的多層樹(shù)狀結(jié)構(gòu)中,具體是哪一層的哪一個(gè)節(jié)點(diǎn)的波動(dòng)對(duì)這個(gè)指標(biāo)的波動(dòng)貢獻(xiàn)度最大?比如:以詢盤(pán)量的上升為例,可以如下進(jìn)行拆分。
![](https://image.woshipm.com/wp-files/2018/04/i4FJTHeTDUpu0wN73PO2.png)
細(xì)分維度拆解示意圖
3.3 明確波動(dòng)的原因
在數(shù)據(jù)現(xiàn)象明確之后,需要對(duì)數(shù)據(jù)進(jìn)行一定的推理,得出明確的結(jié)論。在邏輯推理過(guò)程中,需做到推斷合理,避免常見(jiàn)的錯(cuò)誤。
錯(cuò)誤1 :相關(guān)性的誤解
案例:發(fā)現(xiàn)人智力水平和胳膊長(zhǎng)度 的統(tǒng)計(jì)數(shù)據(jù)中,發(fā)現(xiàn)人智力水平和胳膊長(zhǎng)度是正相關(guān)的,胳膊長(zhǎng)人,智力也一般比較高!
啟示:相關(guān)性并不能表明因果系。上述數(shù)據(jù)的統(tǒng)計(jì)范圍是從不足1歲的孩子,到完全長(zhǎng)成歲的孩子到完全長(zhǎng)成 年人。在成長(zhǎng)過(guò)程中,體型會(huì)逐漸變大智年人。在成長(zhǎng)過(guò)程中,體型會(huì)逐漸變大智年人。在成長(zhǎng)過(guò)程中,體型會(huì)逐漸變大智力也會(huì)逐步發(fā)展。
錯(cuò)誤2: 缺失對(duì)比對(duì)象
案例:某藥廠推出了一款新感冒,配有說(shuō)明藥廣告厲害的語(yǔ):“臨床顯示, 本藥品可以在 10 分鐘內(nèi)殺死 5萬(wàn)個(gè)感冒病 毒!”
啟示:乍一看好像很有道理,感冒藥好像很厲害,但是如果我們拿到了更多的比較數(shù)據(jù),如“人一次感冒會(huì)產(chǎn)生5億個(gè)病毒”或“其它藥廠的感冒藥至少可以在10分鐘內(nèi)殺死100萬(wàn)個(gè)病毒”,那這個(gè)新感冒藥的效果不是低劣的可笑嗎?
錯(cuò)誤3:基于個(gè)案來(lái)推總體
案例:一個(gè)朋友有吸煙的習(xí)慣,以往每次勸他戒煙的時(shí)候,他都振振有詞的說(shuō):“你看名人A吸煙活到80多歲,名人B不吸煙不喝酒卻很早就去世了。所以壽命這種東西,和吸煙不吸煙么啥關(guān)系?!?/p>
啟示:無(wú)論一個(gè)人是否吸煙,均可能過(guò)早去世,也可能活到高壽。但從大樣本的數(shù)據(jù)來(lái)看,吸煙人群的壽齡普遍比不抽煙的整體減少5歲。下論斷要從統(tǒng)計(jì)整體上來(lái)看,揪住一些個(gè)案沒(méi)有太多意義的。
在避免常見(jiàn)的邏輯錯(cuò)誤的同時(shí),也要敢于下結(jié)論,雖然結(jié)論有可能是錯(cuò)的。
三、解決方案
數(shù)據(jù)分析的終極目的是對(duì)業(yè)務(wù)改進(jìn)產(chǎn)生價(jià)值,基于此,分析結(jié)論之后一定要提出切實(shí)可執(zhí)行的方案,即落地到業(yè)務(wù)和產(chǎn)品上的具體建議,確保方案可執(zhí)行,效果可評(píng)估。
分析報(bào)告完成之后,一定要多與業(yè)務(wù)部門(mén)進(jìn)行溝通,收集反饋,聽(tīng)取他們需要的是什么?一起商討解決方案。作為分析師也要不斷反饋?zhàn)约海绾胃倪M(jìn)才能更有效的與業(yè)務(wù)結(jié)合?
四、總結(jié)
本文總結(jié)了分析的過(guò)程,包括如下內(nèi)容:
- 問(wèn)題的界定,界定數(shù)據(jù)異常的方法。
- 問(wèn)題的分析,關(guān)鍵在于從指標(biāo)和維度2個(gè)角度進(jìn)行拆解,以及從數(shù)據(jù)到結(jié)論的推理。
- 結(jié)論的推動(dòng)執(zhí)行,與業(yè)務(wù)溝通反饋分析結(jié)論,探討后續(xù)方案的執(zhí)行。
本文由 @時(shí)之沙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CCO協(xié)議
更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
![](http://image.woshipm.com/wp-files/img/62.jpg)
數(shù)據(jù)異常分析,是數(shù)據(jù)分析工作中最常見(jiàn)且重要的分析主題,本文總結(jié)了數(shù)據(jù)分析的一般過(guò)程和方法,希望后續(xù)的分析在此基礎(chǔ)上不斷優(yōu)化。
一、背景
數(shù)據(jù)異常分析,是數(shù)據(jù)分析工作中最常見(jiàn)且重要的分析主題,通過(guò)一次次的異常分析來(lái)明確造成數(shù)據(jù)波動(dòng)的原因,建立日常的的運(yùn)營(yíng)工作和數(shù)據(jù)波動(dòng)之間的相關(guān)性以及貢獻(xiàn)程度的概念,從而找到促進(jìn)數(shù)據(jù)增長(zhǎng)的途徑,改變數(shù)據(jù)結(jié)果。
本文總結(jié)了數(shù)據(jù)分析的一般過(guò)程和方法,希望后續(xù)的分析在此基礎(chǔ)上不斷優(yōu)化。
二、問(wèn)題界定
收集到的數(shù)據(jù)分析需求可能是類似于轉(zhuǎn)化率最近在下降,詢盤(pán)量有點(diǎn)上升。這種描述,其實(shí)并沒(méi)有把問(wèn)題界定與描述清楚。首要便是對(duì)數(shù)據(jù)波動(dòng)進(jìn)行界定,如果問(wèn)題沒(méi)有界定清楚,后續(xù)的數(shù)據(jù)分析也就失去了價(jià)值。
問(wèn)題界定需要解決以下疑問(wèn),判斷數(shù)據(jù)波動(dòng)是否為異常?異常的范圍、波動(dòng)的程度,是否需要深入分析?
數(shù)據(jù)異常判定的理論基礎(chǔ)如下:假設(shè)指標(biāo)服從均值為μ和標(biāo)準(zhǔn)差δ的正態(tài)分布,處于(負(fù)無(wú)窮大, μ-3σ] 和[μ+3σ, 正無(wú)窮)范圍時(shí),樣本的概率為0.26%,這是一個(gè)小概率事件,我們稱其為3倍標(biāo)準(zhǔn)差下的異常點(diǎn)。
正態(tài)分布圖
如果指標(biāo)的樣本數(shù)據(jù)為k 個(gè),并記錄為x1,x2,x3,…,xk,則閾值的計(jì)算步驟如下:
- 計(jì)算指標(biāo)平均值,公式如下:x =Σxi/k;
- 計(jì)算樣本的移動(dòng)極差,公式如下:MR=|Xi-Xi-1|;
- 計(jì)算移動(dòng)極差均值(k 個(gè)樣本數(shù)據(jù)產(chǎn)生k-1 個(gè)移動(dòng)極差),公式如下:MR =ΣMRi/k-1;
- 計(jì)算CL,公式如下:CL = x;
- 計(jì)算UCL 和LCL(在3 倍標(biāo)準(zhǔn)差情況下)。公式如下:UCL= x +3×MR/d2;LCL= x -3×MR/d2,其中d2 等于1.128。
超過(guò)UCL和LCL的則為異常,如果數(shù)據(jù)有明顯的周期性和季節(jié)性,需去除相關(guān)因素之后再利用以上辦法計(jì)算閾值。
三、問(wèn)題分析
分析方法為基準(zhǔn)對(duì)比分析,選取數(shù)據(jù)變化前后可對(duì)比的時(shí)間段進(jìn)行對(duì)比。
3.1 明確引起指標(biāo)異常的相關(guān)指標(biāo)
分析思路為先對(duì)異常指標(biāo)進(jìn)行拆解,確保指標(biāo)拆到最細(xì)粒度的原子指標(biāo),然后評(píng)估相關(guān)的指標(biāo)的影響程度。
1)指標(biāo)拆解方法
拆解的方法為杜邦分析,示例如下:
相關(guān)指標(biāo)拆解示意圖
2)貢獻(xiàn)度的衡量
將變化的量分解到相關(guān)的最細(xì)粒度指標(biāo),對(duì)比前后2個(gè)時(shí)間段上最細(xì)粒度指標(biāo)的變化,明確是哪一個(gè)指標(biāo)的波動(dòng)對(duì)這個(gè)指標(biāo)的波動(dòng)貢獻(xiàn)度最大。比如:詢盤(pán)量轉(zhuǎn)化率上升,而詢盤(pán)量轉(zhuǎn)化率=詢盤(pán)量/會(huì)話量,細(xì)分轉(zhuǎn)化率的上升是詢盤(pán)量的上升導(dǎo)致還是會(huì)話量的下降導(dǎo)致,各自貢獻(xiàn)的比例為多少?
詢盤(pán)轉(zhuǎn)化率的波動(dòng)=詢盤(pán)轉(zhuǎn)化率2-詢盤(pán)轉(zhuǎn)化率1=詢盤(pán)量2/會(huì)話量2? -詢盤(pán)量1/會(huì)話量1
假設(shè)在詢盤(pán)量不變的情況下:
會(huì)話量對(duì)轉(zhuǎn)化率的波動(dòng)貢獻(xiàn)=詢盤(pán)量1/會(huì)話量2? -詢盤(pán)量1/會(huì)話量1
假設(shè)在會(huì)話量不變的情況下:
詢盤(pán)量對(duì)轉(zhuǎn)化率的波動(dòng)貢獻(xiàn)=詢盤(pán)量2/會(huì)話量2? -詢盤(pán)量1/會(huì)話量2
3.2 單指標(biāo)多維度的分析
能在一個(gè)指標(biāo)能拆分成的多層樹(shù)狀結(jié)構(gòu)中,具體是哪一層的哪一個(gè)節(jié)點(diǎn)的波動(dòng)對(duì)這個(gè)指標(biāo)的波動(dòng)貢獻(xiàn)度最大?比如:以詢盤(pán)量的上升為例,可以如下進(jìn)行拆分。
細(xì)分維度拆解示意圖
3.3 明確波動(dòng)的原因
在數(shù)據(jù)現(xiàn)象明確之后,需要對(duì)數(shù)據(jù)進(jìn)行一定的推理,得出明確的結(jié)論。在邏輯推理過(guò)程中,需做到推斷合理,避免常見(jiàn)的錯(cuò)誤。
錯(cuò)誤1 :相關(guān)性的誤解
案例:發(fā)現(xiàn)人智力水平和胳膊長(zhǎng)度 的統(tǒng)計(jì)數(shù)據(jù)中,發(fā)現(xiàn)人智力水平和胳膊長(zhǎng)度是正相關(guān)的,胳膊長(zhǎng)人,智力也一般比較高!
啟示:相關(guān)性并不能表明因果系。上述數(shù)據(jù)的統(tǒng)計(jì)范圍是從不足1歲的孩子,到完全長(zhǎng)成歲的孩子到完全長(zhǎng)成 年人。在成長(zhǎng)過(guò)程中,體型會(huì)逐漸變大智年人。在成長(zhǎng)過(guò)程中,體型會(huì)逐漸變大智年人。在成長(zhǎng)過(guò)程中,體型會(huì)逐漸變大智力也會(huì)逐步發(fā)展。
錯(cuò)誤2: 缺失對(duì)比對(duì)象
案例:某藥廠推出了一款新感冒,配有說(shuō)明藥廣告厲害的語(yǔ):“臨床顯示, 本藥品可以在 10 分鐘內(nèi)殺死 5萬(wàn)個(gè)感冒病 毒!”
啟示:乍一看好像很有道理,感冒藥好像很厲害,但是如果我們拿到了更多的比較數(shù)據(jù),如“人一次感冒會(huì)產(chǎn)生5億個(gè)病毒”或“其它藥廠的感冒藥至少可以在10分鐘內(nèi)殺死100萬(wàn)個(gè)病毒”,那這個(gè)新感冒藥的效果不是低劣的可笑嗎?
錯(cuò)誤3:基于個(gè)案來(lái)推總體
案例:一個(gè)朋友有吸煙的習(xí)慣,以往每次勸他戒煙的時(shí)候,他都振振有詞的說(shuō):“你看名人A吸煙活到80多歲,名人B不吸煙不喝酒卻很早就去世了。所以壽命這種東西,和吸煙不吸煙么啥關(guān)系?!?/p>
啟示:無(wú)論一個(gè)人是否吸煙,均可能過(guò)早去世,也可能活到高壽。但從大樣本的數(shù)據(jù)來(lái)看,吸煙人群的壽齡普遍比不抽煙的整體減少5歲。下論斷要從統(tǒng)計(jì)整體上來(lái)看,揪住一些個(gè)案沒(méi)有太多意義的。
在避免常見(jiàn)的邏輯錯(cuò)誤的同時(shí),也要敢于下結(jié)論,雖然結(jié)論有可能是錯(cuò)的。
三、解決方案
數(shù)據(jù)分析的終極目的是對(duì)業(yè)務(wù)改進(jìn)產(chǎn)生價(jià)值,基于此,分析結(jié)論之后一定要提出切實(shí)可執(zhí)行的方案,即落地到業(yè)務(wù)和產(chǎn)品上的具體建議,確保方案可執(zhí)行,效果可評(píng)估。
分析報(bào)告完成之后,一定要多與業(yè)務(wù)部門(mén)進(jìn)行溝通,收集反饋,聽(tīng)取他們需要的是什么?一起商討解決方案。作為分析師也要不斷反饋?zhàn)约海绾胃倪M(jìn)才能更有效的與業(yè)務(wù)結(jié)合?
四、總結(jié)
本文總結(jié)了分析的過(guò)程,包括如下內(nèi)容:
- 問(wèn)題的界定,界定數(shù)據(jù)異常的方法。
- 問(wèn)題的分析,關(guān)鍵在于從指標(biāo)和維度2個(gè)角度進(jìn)行拆解,以及從數(shù)據(jù)到結(jié)論的推理。
- 結(jié)論的推動(dòng)執(zhí)行,與業(yè)務(wù)溝通反饋分析結(jié)論,探討后續(xù)方案的執(zhí)行。
本文由 @時(shí)之沙 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CCO協(xié)議
你好,請(qǐng)問(wèn)為什么剔除異常點(diǎn)時(shí)要算極差均值而不是用平均值±3倍標(biāo)準(zhǔn)差呢
請(qǐng)教下多維度分析里,維度的順序是怎么定的?
比如:詢盤(pán)量轉(zhuǎn)化率上升,而詢盤(pán)量轉(zhuǎn)化率=詢盤(pán)量/會(huì)話量,細(xì)分轉(zhuǎn)化率的上升是詢盤(pán)量的上升導(dǎo)致還是會(huì)話量的下降導(dǎo)致,各自貢獻(xiàn)的比例為多少?
詢盤(pán)轉(zhuǎn)化率的波動(dòng)=詢盤(pán)轉(zhuǎn)化率2-詢盤(pán)轉(zhuǎn)化率1=詢盤(pán)量2/會(huì)話量2 -詢盤(pán)量1/會(huì)話量1
假設(shè)在詢盤(pán)量不變的情況下:
會(huì)話量對(duì)轉(zhuǎn)化率的波動(dòng)貢獻(xiàn)=詢盤(pán)量1/會(huì)話量2 -詢盤(pán)量1/會(huì)話量1
假設(shè)在會(huì)話量不變的情況下:
詢盤(pán)量對(duì)轉(zhuǎn)化率的波動(dòng)貢獻(xiàn)=詢盤(pán)量2/會(huì)話量2 -詢盤(pán)量1/會(huì)話量2
————————————————————-
▋請(qǐng)教下:
1. 為何第1個(gè)詢盤(pán)量不變不變的時(shí)候, 是詢盤(pán)量1不變? 而第2個(gè)會(huì)話量不變的情況下, 確實(shí)會(huì)話量2不變?
怎樣才能看得懂這篇文章呢?
成為一個(gè)稍微厲害點(diǎn)的數(shù)據(jù)分析師的時(shí)候
sorry,那還是我寫(xiě)的不夠清楚,沒(méi)有讓你明白。
不是不是,是我不夠厲害~