一個(gè)小故事告訴你,如何寫好數(shù)據(jù)分析報(bào)告?

11 評(píng)論 16510 瀏覽 244 收藏 20 分鐘

給你一份數(shù)據(jù),你能完美的出一份數(shù)據(jù)報(bào)告嗎?本文結(jié)合一個(gè)小故事,來(lái)告訴大家如何寫好一份數(shù)據(jù)分析報(bào)告,enjoy~

本故事純屬虛構(gòu)。

故事發(fā)生在花果山,主人公是一只初入職場(chǎng)的小猴子,名叫“嗨皮君”,他剛剛被水簾洞科技有限公司錄用為數(shù)據(jù)分析專員。他的老板就是大名鼎鼎的數(shù)據(jù)分析師“猴子”,公司里的人都尊稱他為“齊天大圣”。

花果山最近出現(xiàn)了一些狀況,某些猴子感染了不明病毒,導(dǎo)致花果山發(fā)生了嚴(yán)重的疫情?,F(xiàn)在水簾洞科技有限公司的員工都只能在家辦公。

這天,老板齊天大圣通過(guò)“猴信”(花果山全民都在用的IM軟件)找到嗨皮君,他說(shuō):“嗨皮君,你剛進(jìn)公司不久,需要盡快熟悉公司的業(yè)務(wù)?,F(xiàn)在還不能上班,但也不能把這些時(shí)間浪費(fèi)了。這樣,我給你一份數(shù)據(jù),你好好研究分析一下,下周給我一份數(shù)據(jù)分析報(bào)告?!?/p>

接到任務(wù),嗨皮君心里十分緊張:這可是進(jìn)入公司的第一個(gè)任務(wù)啊,一定要好好表現(xiàn)!于是他認(rèn)認(rèn)真真地觀看了老板齊天大圣以前做過(guò)的數(shù)據(jù)分析教學(xué)視頻,還在網(wǎng)上查閱了很多相關(guān)資料。

以下便是嗨皮君的思考和寫作過(guò)程:

一、分析背景及目的

數(shù)據(jù)源:Baby Goods Info Data-數(shù)據(jù)集-阿里云天池

這是一份母嬰產(chǎn)品的銷售數(shù)據(jù),數(shù)據(jù)集各字段的含義如下:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

我們需要從這些數(shù)據(jù)中發(fā)現(xiàn)某些規(guī)律或者異常,進(jìn)而給運(yùn)營(yíng)團(tuán)隊(duì)提出建議。

二、分析思路

從“產(chǎn)品”和“用戶”兩個(gè)角度來(lái)分析:

1. 產(chǎn)品角度

  • 分析銷量隨時(shí)間變化有什么規(guī)律
  • 分析哪些是熱銷產(chǎn)品,哪些是滯銷產(chǎn)品,它們有什么特征

2. 用戶角度

  • 分析嬰兒年齡和銷量之間有什么關(guān)系
  • 分析嬰兒生日和銷量之間有什么關(guān)系

三、分析過(guò)程

1. 數(shù)據(jù)清洗

(1)確定分析表

把列名替換成中文,調(diào)整列寬和列與列的順序:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

(2)多刪少補(bǔ)

① 處理重復(fù)項(xiàng)

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

由上述結(jié)果可見,并未發(fā)現(xiàn)重復(fù)項(xiàng)。

② 處理空值項(xiàng)

處理結(jié)果發(fā)現(xiàn),產(chǎn)品信息表中的空值項(xiàng)均出現(xiàn)在商品屬性字段下,由于商品屬性是特定值,不可預(yù)估,在缺乏其他數(shù)據(jù)源的情況下沒(méi)有辦法進(jìn)行填補(bǔ),因此暫時(shí)忽略這些空值項(xiàng)。

嬰兒信息表中未發(fā)現(xiàn)有空值項(xiàng)。

(3)一致化處理

把“購(gòu)買時(shí)間”和“嬰兒生日”用分列功能轉(zhuǎn)換為日期格式,把“嬰兒性別”轉(zhuǎn)換成其真實(shí)含義。

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

(4)異常值處理

① 刪除性別異常值

嬰兒出生時(shí)的性別只有男和女兩種可能,經(jīng)過(guò)上面的清洗步驟,發(fā)現(xiàn)嬰兒性別出現(xiàn)了異常值,刪除掉。

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

② 刪除日期異常值

經(jīng)排序后觀察發(fā)現(xiàn),購(gòu)買時(shí)間的區(qū)間范圍是[2012/7/2,2015/2/5],沒(méi)有極端異常值。

嬰兒生日的區(qū)間范圍是[1984/6/16,2015/8/15],產(chǎn)品銷售時(shí)間在2012年~2015年,卻出現(xiàn)了生日是1984年的嬰兒,顯然這個(gè)1984/6/16的項(xiàng)是異常項(xiàng),故需刪除。

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

③ 判斷數(shù)據(jù)集是否還有可能存在異常值

對(duì)購(gòu)買數(shù)量進(jìn)行描述統(tǒng)計(jì)分析得:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

變異系數(shù)=標(biāo)準(zhǔn)差/平均值*100%=2515%,說(shuō)明數(shù)據(jù)集離散程度很高,可能存在部分極端值。

有時(shí)候某些異常值我們?cè)跀?shù)據(jù)清洗階段無(wú)法發(fā)現(xiàn),所以在結(jié)合圖表分析的時(shí)候我們還會(huì)進(jìn)行異常值的判斷。

2. 結(jié)合圖表分析

(1)分析銷量隨時(shí)間變化有什么規(guī)律

① 觀察整體銷售趨勢(shì)

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖中發(fā)現(xiàn),2014年11月出現(xiàn)了一個(gè)顯著的銷量高峰。

看到11月份銷量暴漲我們通常會(huì)想到是由于雙十一活動(dòng)造成的,是否真的這樣呢?

我們先假設(shè)是由于雙十一活動(dòng)造成的,那么銷量暴漲背后必定是由于購(gòu)買人數(shù)暴漲,下面便要收集數(shù)據(jù)證明購(gòu)買人數(shù)也暴漲。

② 分析2014年11月出現(xiàn)銷量暴增的原因

進(jìn)一步,查看11月的銷售情況:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從上圖中可以看出,2014年11月銷售暴增主要是因?yàn)?1月13日這天的銷量出現(xiàn)了暴增。

③ 分析2014年11月13日這天出現(xiàn)銷量暴增的原因

再進(jìn)一步,觀察各個(gè)類別11月的銷售情況:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖中可以明顯看到,主要銷量來(lái)源于類別50014815,查詢具體數(shù)據(jù)發(fā)現(xiàn),11月13日總銷量10138,類別50014815就占了10030(99.7%)。

④ 分析類別50014815在11月13日銷量暴增的原因

把類別50014815歷史所有的數(shù)據(jù)調(diào)出來(lái)看:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從類別50014815的歷史銷售數(shù)據(jù)可以發(fā)現(xiàn),之前銷售一直維持在一個(gè)比較平穩(wěn)的水平,只是在2014年11月13日這天出現(xiàn)了暴增。

回到分析表,篩選出2014年11月13日類別50014815的銷售明細(xì)查看。

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從銷售明細(xì)可以看出,該類別的商品由用戶2288344467單次購(gòu)買了10000件,占了99.7%(當(dāng)天共10030),由此可得出以下結(jié)論:

  • 不是雙十一活動(dòng)活動(dòng)導(dǎo)致的。因?yàn)槿绻请p十一活動(dòng),必然很多用戶購(gòu)買導(dǎo)致銷售量暴增,而不是只有一個(gè)用戶購(gòu)買大量商品;
  • 需要找工程師確認(rèn)數(shù)據(jù)源是否記錄有誤;
  • 如果數(shù)據(jù)無(wú)誤,則要將情況反饋給運(yùn)營(yíng)人員,跟蹤該用戶是否存在可疑行為(刷單,或者利用網(wǎng)站漏洞薅羊毛)。

⑤ 排除異常值,重新再觀察銷售趨勢(shì)

經(jīng)過(guò)上述分析,用戶2288344467購(gòu)買的這條記錄屬于異常值,記錄為“異常數(shù)據(jù)1”,應(yīng)該刪除,再重新分析銷量隨時(shí)間變化的規(guī)律。

把刪除“異常數(shù)據(jù)1”后新的數(shù)據(jù)表再用折線圖展示:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖中可以看出類別38、類別50014815、類別50022520、類別122650008的銷售情況都趨于平穩(wěn),類別28的銷量起伏較大,類別50008168出現(xiàn)一個(gè)極端高峰點(diǎn)。

⑥ 分析類別50008168的銷售出現(xiàn)極端高峰點(diǎn)的原因

通過(guò)同樣的方法可以分析出類別50008168在2014年9月20日由用戶173701616購(gòu)入2748件,將此數(shù)據(jù)記錄為“異常數(shù)據(jù)2”,處理方法參照異常數(shù)據(jù)1。

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

⑦ 分析類別28銷量波動(dòng)大的原因

同樣地把“異常數(shù)據(jù)2”刪除后,得到折線圖:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

觀察發(fā)現(xiàn)類別28的波動(dòng)比較大,查找到類別28的銷售明細(xì),按照銷量倒序排序:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從表中發(fā)現(xiàn)類別28并沒(méi)有明顯的異常數(shù)據(jù),不過(guò)前三項(xiàng)較其他項(xiàng)差距較大,應(yīng)該標(biāo)記為“關(guān)注數(shù)據(jù)”,結(jié)合更多的其他數(shù)據(jù)來(lái)分析原因。

⑧ 小結(jié)

  • 類別50014815、類別50008168均出現(xiàn)異常值,分別標(biāo)記為“異常數(shù)據(jù)1”、“異常數(shù)據(jù)2”,排除是營(yíng)銷活動(dòng)導(dǎo)致的。因?yàn)槿绻菭I(yíng)銷活動(dòng),必然很多用戶購(gòu)買導(dǎo)致銷售量暴增,而不是只有一個(gè)用戶購(gòu)買大量商品;
  • 類別50014815、類別50008168這兩項(xiàng)異常數(shù)據(jù)需要找工程師確認(rèn)數(shù)據(jù)源是否記錄有誤;如果數(shù)據(jù)無(wú)誤,則要將情況反饋給運(yùn)營(yíng)人員,跟蹤該用戶是否存在刷單情況(網(wǎng)站可能會(huì)存在漏洞,被黑客利用進(jìn)行刷單薅羊毛),后續(xù)分析排除這兩項(xiàng)數(shù)據(jù);
  • 類別28標(biāo)記出三項(xiàng)“關(guān)注數(shù)據(jù)”,目前沒(méi)有其他數(shù)據(jù)結(jié)合分析,暫時(shí)保留。

(2)分析哪些是熱銷產(chǎn)品,哪些是滯銷產(chǎn)品,它們有什么特征

“熱銷”和“滯銷”應(yīng)該根據(jù)購(gòu)買人數(shù)來(lái)判斷。

① 找出熱銷和滯銷商品

各類別購(gòu)買人數(shù)

可以看出類別50008168商品最熱銷,而類別38商品的購(gòu)買人數(shù)最少,結(jié)合之前的購(gòu)買數(shù)量圖可以看出類別38的銷量也相對(duì)較少,因此類別38商品是滯銷商品。

② 分析熱銷商品和滯銷商品的購(gòu)買人數(shù)變化

a. 先按【年份】來(lái)看

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

2015年只取到2月6日,數(shù)據(jù)不全,整體上可以看出所有類別的購(gòu)買人數(shù)都是逐年增加。

b. 再按【季度】來(lái)看

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

整體上表現(xiàn)為第一季度下滑,第二季度上升,第三季度下滑,第四季度上升。

c. 最后按【月份】來(lái)看

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖中可以看出,滯銷商品類別38的人數(shù)表現(xiàn)平穩(wěn),一直維持在較低的水平,由此可判斷該類商品基本是靠自然流量,或者是冷門類別。

除類別38外,其他五類商品都有一些共同特征(第一季度下滑,第二季度上升,第三季度下滑,第四季度上升),而熱銷商品類別50008168的波動(dòng)較大。

③ 分析熱銷商品類別50008168購(gòu)買人數(shù)波動(dòng)的原因

觀察類別50008168折線圖發(fā)現(xiàn),每年的2月和7月會(huì)出現(xiàn)波谷,而5月和11月會(huì)出現(xiàn)波峰(2013年是12月出現(xiàn)波峰),因此把這些月份單獨(dú)拿出來(lái)觀察。

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖中可以發(fā)現(xiàn),每年的11月和12月會(huì)出現(xiàn)明顯的“凸起”,其他月份均是有起有伏,因此再把11月和12月份單獨(dú)拿出來(lái)看:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

至此,已經(jīng)很明顯可以看出,每年的11月11日和12月12日都會(huì)出現(xiàn)購(gòu)買人數(shù)突增,可以判斷這是商家們進(jìn)行“雙十一促銷”和“雙十二促銷”活動(dòng)導(dǎo)致的。

④ 小結(jié)

  • 熱銷商品是類別50008168,每年“雙十一”和“雙十二”商家會(huì)進(jìn)行促銷活動(dòng),而且活動(dòng)效果明顯;
  • 滯銷商品是類別38,購(gòu)買人數(shù)和銷量一直平穩(wěn)在較低水平。

(3)分析嬰兒性別和銷量之間有什么關(guān)系

① 計(jì)算男女人數(shù)比例

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

得出男女人數(shù)比例大概是1:1.1。

② 計(jì)算男女各自購(gòu)買的商品數(shù)

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

得出男女購(gòu)買商品數(shù)的比例大概是1:1.7。由此可見女性嬰兒產(chǎn)品的銷量要高于男性。

③ 比較各類別購(gòu)買數(shù)量-男女差異

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖表中可以看出,只有類別50022520是男性略高于女性的,其他類別都是女性高于男性,主要差別在于類別50014815,女性購(gòu)買量是男性的3倍。

④ 小結(jié)

  • 女性嬰兒產(chǎn)品的銷量明顯高于男性;
  • 只有類別50022520是男性略高于女性的,其他類別都是女性高于男性,主要差別在于類別50014815,其女性購(gòu)買量是男性的3倍。

(4)分析嬰兒年齡和銷量之間有什么關(guān)系

① 分析嬰兒年齡和銷量的關(guān)系

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖表中發(fā)現(xiàn),產(chǎn)品的整體銷量隨著嬰兒年齡的增長(zhǎng)而下降,到了6歲之后就基本沒(méi)有需求了。

② 分析各個(gè)類別的銷量走勢(shì)

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

從圖中可以看出雖然整體銷量都是隨著嬰兒年齡增長(zhǎng)而下滑,但是各類別的側(cè)重點(diǎn)不同:

  • 類別50014815、類別50008168、類別28主打未滿1周歲的母嬰產(chǎn)品(0歲達(dá)到峰值);
  • 類別38、類別122650008主打1歲的母嬰產(chǎn)品(1歲達(dá)到峰值);
  • 類別50022520主打未出生前的母嬰產(chǎn)品(“未出生”達(dá)到峰值),應(yīng)該主要面向孕婦和哺乳期媽媽。

③ 小結(jié)

  • 整體銷量隨著嬰兒年齡的增長(zhǎng)而下降,到了6歲之后就基本沒(méi)有需求了;
  • 類別50014815、類別50008168、類別28主打未滿1周歲的母嬰產(chǎn)品;類別38、類別122650008主打1歲的母嬰產(chǎn)品;類別50022520主打未出生前的母嬰產(chǎn)品,應(yīng)該主要面向孕婦和哺乳期媽媽。

四、結(jié)論和建議

最后把上面整個(gè)分析思路、分析過(guò)程以及分析過(guò)程中的小結(jié)整理出來(lái),得到分析結(jié)論,并綜合所有結(jié)論得出建議:

一個(gè)小故事告訴你如何寫好數(shù)據(jù)分析報(bào)告

后記:

嗨皮君花了整整兩天把這份分析報(bào)告寫完,然后發(fā)給老板齊天大圣。老板看完之后,瞇著眼笑了笑,回復(fù)道:“你的報(bào)告行文邏輯思路很清晰,結(jié)論和建議都比較到位,不錯(cuò)不錯(cuò)。你能告訴我你在寫作過(guò)程中感觸最深的是什么嗎?”

嗨皮君想了想,回復(fù)道:

  1. 首先要理清楚分析思路,通過(guò)多維度分析思考,羅列分析點(diǎn);
  2. 正式進(jìn)行分析前要先對(duì)數(shù)據(jù)分析表進(jìn)行清洗:確定分析表——多刪少補(bǔ)——一致化處理——異常值處理;
  3. 根據(jù)羅列的分析點(diǎn)逐個(gè)分析,過(guò)程中需要結(jié)合對(duì)比分析、邏輯樹分析、假設(shè)驗(yàn)證分析等分析方法進(jìn)行分析;
  4. 很多問(wèn)題不是一開始就能發(fā)現(xiàn)的,而是要經(jīng)歷“構(gòu)建圖表——發(fā)現(xiàn)異?!律罹浚ú粩嗟厣钊胱穯?wèn))——逐層分析逼近真相——找到合理解釋”的過(guò)程,因此需要有“抽絲剝繭”的精神;
  5. 當(dāng)數(shù)據(jù)關(guān)系到整體也關(guān)系到部分時(shí),要警惕“辛普森悖論”,研究完整體得出結(jié)論后,還要研究整體中的部分,看是否也能得出相同的結(jié)論;
  6. 每個(gè)分析點(diǎn)得出小結(jié),最后把小結(jié)綜合起來(lái)再總結(jié),往往能夠把結(jié)論表達(dá)得更全面;最后的建議根據(jù)綜合結(jié)論得出來(lái)會(huì)更有意義。

本故事完,感謝觀看

 

本文由@Haby 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 對(duì)你過(guò)往的分享很感興趣,希望有機(jī)會(huì)邀請(qǐng)你到公司交流學(xué)習(xí)~

    來(lái)自湖北 回復(fù)
  2. 講的很詳細(xì)

    來(lái)自北京 回復(fù)
  3. 原來(lái)自己做的數(shù)據(jù)分析 只有廣度沒(méi)有深度 感謝分享!

    回復(fù)
  4. 你這個(gè)應(yīng)該看了那本《誰(shuí)說(shuō)菜鳥不會(huì)數(shù)據(jù)分析》,然后總結(jié)來(lái)的吧

    來(lái)自廣東 回復(fù)
  5. 感謝分享

    回復(fù)
  6. 謝謝分享

    回復(fù)
  7. 干貨滿滿!謝謝分享

    回復(fù)
  8. 牛?。。。?1月銷量明顯增長(zhǎng)后還能分析出是不是因?yàn)殡p11活動(dòng)導(dǎo)致的,這個(gè)點(diǎn)真是太出乎意料了。普通運(yùn)營(yíng)者一般就直接忽略了,畢竟11月銷量增長(zhǎng)是太平常的情況了,作者打破了慣性思維太棒了!

    來(lái)自上海 回復(fù)
  9. 非常感謝分享

    回復(fù)
  10. 講解很到位 對(duì)新人幫助大

    回復(fù)
  11. 不錯(cuò)

    來(lái)自廣東 回復(fù)