數(shù)據(jù)處理與分析|涵蓋七大分析方法
編輯導(dǎo)語(yǔ):當(dāng)我們面對(duì)繁雜的業(yè)務(wù)數(shù)據(jù)時(shí),我們需要對(duì)數(shù)據(jù)進(jìn)行處理、篩選、整理,否則數(shù)據(jù)只能是數(shù)據(jù),而不能成為輔助我們推進(jìn)下一步業(yè)務(wù)的依據(jù)。那么數(shù)據(jù)分析人員可以采納什么方法進(jìn)行數(shù)據(jù)整理?本文作者就數(shù)據(jù)處理、及數(shù)據(jù)分析的常見(jiàn)方法做了闡述,一起來(lái)看一下吧。
本文針對(duì)性地講講數(shù)據(jù)分析整個(gè)流程最關(guān)鍵的階段:數(shù)據(jù)處理與分析階段。該階段我分成了三塊:數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析,都圍繞著“數(shù)據(jù)”進(jìn)行,對(duì)海量或雜亂數(shù)據(jù)進(jìn)行處理分析,從中找出痛點(diǎn),洞察問(wèn)題。
一、數(shù)據(jù)采集
該處的數(shù)據(jù)采集指的是獲取分析所需要的數(shù)據(jù),一般可以從內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)兩個(gè)方向獲取。
1. 內(nèi)部數(shù)據(jù)
1)直接獲取
直接獲取的前提是,公司進(jìn)行了數(shù)據(jù)倉(cāng)庫(kù)的建設(shè),已為決策分析提供了所有類(lèi)型數(shù)據(jù)支持。該部分內(nèi)容在之前的文章中也提到過(guò),但是在這里更加細(xì)化地做了點(diǎn)補(bǔ)充。
直接獲取就是指數(shù)據(jù)庫(kù)中有現(xiàn)成的表可以直接獲取到所需的數(shù)據(jù),不需要分析師再在sql上做復(fù)雜的處理。
公司一般會(huì)將數(shù)據(jù)分為ods、dwd、dwb/dws層數(shù)據(jù)。
- ods層:明細(xì)數(shù)據(jù)。數(shù)倉(cāng)不做任何數(shù)據(jù)處理,直接原封不動(dòng)地將數(shù)據(jù)同步到該庫(kù)上。為dw層的數(shù)據(jù)加工作準(zhǔn)備。
- dwd層:明細(xì)數(shù)據(jù)。該層數(shù)據(jù)已在ods層上對(duì)數(shù)據(jù)做了清洗操作,比如去除空值、臟數(shù)據(jù)等。
- dwb/dws層:聚合數(shù)據(jù)。主要對(duì)ods/dwd層的數(shù)據(jù)做些輕度匯總,會(huì)涉及較多業(yè)務(wù)指標(biāo)數(shù)據(jù)。如根據(jù)ods/dwd層的明細(xì)數(shù)據(jù)計(jì)算出七日復(fù)購(gòu)率、周同期對(duì)比數(shù)據(jù)、毛利率等指標(biāo)供分析師直接查詢(xún)使用。
一般情況下,分析可以直接從dwb/dws層調(diào)取現(xiàn)成的指標(biāo)數(shù)據(jù)進(jìn)行分析,特殊情況下也可以從dwd層寫(xiě)復(fù)雜sql的方式計(jì)算成所需的數(shù)據(jù)。
2)重新落表獲取
前提是dwb/dws層沒(méi)有現(xiàn)成的數(shù)據(jù)可以直接獲取,哪怕自己寫(xiě)代碼可以從dwd層獲取,也需要寫(xiě)很復(fù)雜的代碼。此時(shí),請(qǐng)數(shù)倉(cāng)協(xié)助落成聚合表再去調(diào)取數(shù)據(jù)。
重新落表一般會(huì)涉及人力資源的協(xié)調(diào),需求的溝通。分析師擔(dān)當(dāng)業(yè)務(wù)方和數(shù)倉(cāng)之間的橋梁,將業(yè)務(wù)方的需求理清楚之后,自身又作為數(shù)倉(cāng)的需求方對(duì)數(shù)倉(cāng)提需求。
2. 外部數(shù)據(jù)
當(dāng)分析的內(nèi)容內(nèi)部數(shù)據(jù)無(wú)法滿(mǎn)足時(shí),或者不夠全面時(shí),此時(shí)需要借助于外部數(shù)據(jù)來(lái)輔助分析。
1)行業(yè)報(bào)告數(shù)據(jù)
比如艾瑞網(wǎng)、極光大數(shù)據(jù)、阿里研究所、199IT互聯(lián)網(wǎng)數(shù)據(jù)中心等都會(huì)時(shí)不時(shí)的發(fā)一些行業(yè)分析報(bào)告。整個(gè)行業(yè)的數(shù)據(jù)公司內(nèi)部是無(wú)法獲取的,所以可以從一些行業(yè)分析報(bào)告入手。
2)問(wèn)卷采集
比如我們需要獲取用戶(hù)的一些:
- 主觀想法:喜歡我們產(chǎn)品的原因是?我們產(chǎn)品最吸引您的點(diǎn)是?您覺(jué)得我們產(chǎn)品最應(yīng)該改進(jìn)的點(diǎn)是?
- 對(duì)競(jìng)品的行為:您在xx場(chǎng)景下更愿意使用A產(chǎn)品、B產(chǎn)品還是C產(chǎn)品?
- 用戶(hù)習(xí)慣的場(chǎng)景:您在什么場(chǎng)景下更愿意使用xx產(chǎn)品?等。
通過(guò)問(wèn)卷數(shù)據(jù)獲取一些產(chǎn)品中無(wú)法獲得的數(shù)據(jù),輔助分析。
3)宏觀數(shù)據(jù)
有時(shí)候我們分析的某個(gè)指標(biāo)有時(shí)候也會(huì)受到宏觀政策的影響,比如宏觀上某項(xiàng)指標(biāo)上調(diào)了xx,對(duì)我們的業(yè)務(wù)會(huì)產(chǎn)生怎樣的影響。
二、數(shù)據(jù)處理
對(duì)分析師而言,這步需要分析師將數(shù)據(jù)根據(jù)腦中的分析框架處理成所需要的數(shù)據(jù)。
1. 處理內(nèi)容
會(huì)涉及數(shù)據(jù)異常值處理、缺失值處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)聚合、數(shù)據(jù)分組歸類(lèi)以及數(shù)據(jù)準(zhǔn)確性的校驗(yàn),為下一步的數(shù)據(jù)分析奠定好基礎(chǔ)。
井井有條的數(shù)據(jù)更有利于分析:
- 剔除無(wú)效數(shù)據(jù),比如異常值、缺失值、重復(fù)值等。
- 考慮清楚數(shù)據(jù)聚合的維度,比如時(shí)間上、地域上、用戶(hù)上、商品上等按照什么維度聚合。
- 做好數(shù)據(jù)聚合的處理,比如需要借助開(kāi)窗函數(shù),是否需要去重計(jì)數(shù),是否需要累積計(jì)數(shù)等。
2. 數(shù)據(jù)驗(yàn)證
數(shù)據(jù)采集到之后,還要做好數(shù)據(jù)驗(yàn)證,目的是確保數(shù)據(jù)準(zhǔn)確性,切忌拿到數(shù)據(jù)立馬動(dòng)手分析。
1)從驗(yàn)證人員來(lái)看
自身多方驗(yàn)證:初始先自身驗(yàn)證一番,與現(xiàn)有報(bào)表中已有數(shù)據(jù)進(jìn)行對(duì)比,觀察是否一致。
與需求方協(xié)同驗(yàn)證:數(shù)據(jù)調(diào)取之后先出一份數(shù)據(jù)表,提供給需求方共同驗(yàn)證。不過(guò)分析師接了需求,保證數(shù)據(jù)準(zhǔn)確性是基本要素,一般情況下需求方并不會(huì)協(xié)同驗(yàn)證。前提是,無(wú)現(xiàn)有數(shù)據(jù)可供對(duì)比查驗(yàn),可將數(shù)據(jù)先提供給需求方過(guò)一眼,確保數(shù)據(jù)準(zhǔn)確無(wú)誤。
2)從驗(yàn)證方式來(lái)看
定性驗(yàn)證:通過(guò)經(jīng)驗(yàn)或邏輯推理,主觀判斷該數(shù)據(jù)是否符合經(jīng)驗(yàn)或正常邏輯,比如你取到的某個(gè)商品的gmv比整個(gè)品類(lèi)的gmv還要大,就不符合正常邏輯,肯定有誤。
定量驗(yàn)證:依據(jù)統(tǒng)計(jì)方式,計(jì)算出具體的指標(biāo),多方交叉驗(yàn)證。
三、數(shù)據(jù)分析——七大分析方法
數(shù)據(jù)分析方法很多,網(wǎng)上有很多資料,這里就講一下其中比較常用的幾種分析方法。
1. 關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)規(guī)則分析其實(shí)就是購(gòu)物籃分析,就是通過(guò)挖掘用戶(hù)的消費(fèi)行為數(shù)據(jù),探索用戶(hù)的消費(fèi)習(xí)慣,從而合理搭配商品,提升收益。
舉個(gè)簡(jiǎn)單的例子,近30天共產(chǎn)生了10筆訂單(方便計(jì)算只虛構(gòu)了10筆),1代表訂單中包含該商品,0代表訂單中未包含商品,比如111112訂單,用戶(hù)沒(méi)有買(mǎi)蘋(píng)果,但買(mǎi)了香蕉(是否買(mǎi)了其他商品不考慮)。
其中購(gòu)買(mǎi)了蘋(píng)果的訂單有6筆,購(gòu)買(mǎi)了香蕉的有5筆,同時(shí)購(gòu)買(mǎi)了蘋(píng)果和香蕉的有3筆。
則:
① 蘋(píng)果和香蕉組合的支持度
=同時(shí)購(gòu)買(mǎi)了蘋(píng)果和香蕉的訂單數(shù)/總訂單數(shù)*100%
=3/10*100%
=30%
含義:同時(shí)購(gòu)買(mǎi)蘋(píng)果和香蕉的概率有多大。
② 蘋(píng)果對(duì)香蕉的置信度
=同時(shí)購(gòu)買(mǎi)了蘋(píng)果和香蕉的訂單數(shù)/購(gòu)買(mǎi)了蘋(píng)果的訂單數(shù)*100%
=3/6*100%
=50%
含義:購(gòu)買(mǎi)了蘋(píng)果的用戶(hù)有多大概率會(huì)再買(mǎi)香蕉。
③ 蘋(píng)果對(duì)香蕉的提升度
=蘋(píng)果對(duì)香蕉的置信度/購(gòu)買(mǎi)香蕉的概率
=50%/(5/10)
=1
含義:購(gòu)買(mǎi)蘋(píng)果對(duì)購(gòu)買(mǎi)香蕉會(huì)產(chǎn)生正向影響還是負(fù)向影響還是無(wú)影響。
此案例中計(jì)算的提升度是1,表示購(gòu)買(mǎi)蘋(píng)果并不會(huì)對(duì)購(gòu)買(mǎi)香蕉產(chǎn)生任何影響。
詳細(xì)解釋下:
- 若提升度=1:表示購(gòu)買(mǎi)蘋(píng)果并不會(huì)對(duì)購(gòu)買(mǎi)香蕉產(chǎn)生任何影響,因?yàn)樵谫?gòu)買(mǎi)了蘋(píng)果的條件下去買(mǎi)香蕉的概率和直接買(mǎi)香蕉的概率是一樣的;
- 若提升度>1:表示購(gòu)買(mǎi)蘋(píng)果對(duì)購(gòu)買(mǎi)香蕉產(chǎn)生了正向影響,即購(gòu)買(mǎi)蘋(píng)果很大可能也會(huì)買(mǎi)香蕉,因?yàn)樵谫?gòu)買(mǎi)了蘋(píng)果的條件下去買(mǎi)香蕉的概率大于直接買(mǎi)香蕉的概率;
- 若提升度<1:表示購(gòu)買(mǎi)蘋(píng)果對(duì)購(gòu)買(mǎi)香蕉產(chǎn)生了負(fù)向影響,即購(gòu)買(mǎi)蘋(píng)果很大可能就不會(huì)買(mǎi)香蕉,因?yàn)樵谫?gòu)買(mǎi)了蘋(píng)果的條件下去買(mǎi)香蕉的概率小于直接買(mǎi)香蕉的概率。
這就是關(guān)聯(lián)規(guī)則分析,一般用以研究探索商品捆綁銷(xiāo)售,比如蘋(píng)果是否需要和香蕉在一起捆綁銷(xiāo)售,捆綁銷(xiāo)售收益是否會(huì)更大。
2. RFM模型
RFM模型主要用來(lái)衡量用戶(hù)價(jià)值,做用戶(hù)分群,比如區(qū)分出低價(jià)值用戶(hù)、高價(jià)值用戶(hù)、忠誠(chéng)用戶(hù)等用戶(hù)群體。
- R:用戶(hù)最近一次消費(fèi)距今時(shí)間(Recency);
- F:用戶(hù)在最近時(shí)間段內(nèi)的消費(fèi)頻次(Frequency);
- M:用戶(hù)在最近時(shí)間段內(nèi)的消費(fèi)金額(Monetary)。
這里用一個(gè)比較簡(jiǎn)單的例子講下:
先對(duì)R、F、M三個(gè)值進(jìn)行分層并賦予權(quán)重(以下數(shù)據(jù)純屬虛構(gòu),分層時(shí)根據(jù)實(shí)際情況)。
比如用戶(hù)最近一次消費(fèi)距今時(shí)間7天以下的打?yàn)?分,8-14天的打?yàn)?分……以此類(lèi)推。分?jǐn)?shù)高的表示價(jià)值性比較高,分?jǐn)?shù)低的表示價(jià)值性比較低。
然后調(diào)取出每個(gè)用戶(hù)R、F、M值,填入“按照均值處理前”列中。
比如下圖中,用戶(hù)“111113”最近一次消費(fèi)距今時(shí)間在7天以下,則R為5,在最近時(shí)間段內(nèi)的消費(fèi)頻次在6-10之間,則F為2,在最近時(shí)間段內(nèi)的消費(fèi)金額在1001-2000之間,則M為2。
再將每個(gè)用戶(hù)的R、F、M值與均值對(duì)比,大于均值填充1,小于均值填充0,填充于”按照均值處理后“列中。
最后將“按照均值處理后”的數(shù)據(jù)參照下圖模型表(下圖不是計(jì)算出來(lái)的,是比較常用的標(biāo)準(zhǔn)),匹配出用戶(hù)類(lèi)型。
給用戶(hù)匹配之后的用戶(hù)價(jià)值類(lèi)型如下:
3. 帕累托分析
帕累托分析就是“二八法則”。
“二八法則”認(rèn)為80%的財(cái)富掌握在20%的人手里,應(yīng)用到業(yè)務(wù)中就是,80%的營(yíng)收在20%的產(chǎn)品里,同理,我們應(yīng)該花80%的時(shí)間內(nèi)在這20%的產(chǎn)品上。也就是說(shuō),寶貴的時(shí)間與資源應(yīng)該用在刀刃上。
如下圖:展示了每個(gè)品類(lèi)的銷(xiāo)售額,通過(guò)銷(xiāo)售額計(jì)算出銷(xiāo)售額累積值,進(jìn)而算出累積百分比。
再通過(guò)銷(xiāo)售額和累積百分比畫(huà)出帕累托圖,如下。
共15種品類(lèi),其中7個(gè)品類(lèi)貢獻(xiàn)了80%的銷(xiāo)售額,占比46.67%,也就是說(shuō)46.67%的商品為公司帶來(lái)了80%的銷(xiāo)售額,并不符合二八定律,該公司并沒(méi)有強(qiáng)勢(shì)產(chǎn)品。
4. 用戶(hù)生命周期價(jià)值分析
用戶(hù)生命周期總價(jià)值,主要用于衡量用戶(hù)對(duì)產(chǎn)品產(chǎn)生的價(jià)值。
以一個(gè)案例講解如下:
下圖是一張留存率圖。
以2021.12.01——2021.12.07之間的七天留存率來(lái)預(yù)估14日留存、30日留存等。
先將黃色部分的七天的留存率取均值,得到圖上最下方的留存平均值。
然后按照留存率的均值做擬合,擬合后的結(jié)果如下圖所示。
選擇冪函數(shù)擬合,因?yàn)閮绾瘮?shù)擬合的R方接近于1,擬合效果較好。
則LT14=100%+51%+53%+37%+32%+29%+29%+25%+23%+22%+20%+19%+18%+17%
=4.75天
LT已經(jīng)算出來(lái)了,那么下一步就是計(jì)算ARPU了。ARPU值直接取日均值就可以了,假如ARPU日均值是¥60,則LTV=4.75*12=285。
即用戶(hù)14天的平均生命周期是4.75天,用戶(hù)在該生命周期內(nèi)能帶來(lái)的總價(jià)值為¥285。
延伸下,如果想知道花費(fèi)在這批用戶(hù)身上的成本需要多久才可以回本,怎么計(jì)算呢?這就涉及到了回本周期預(yù)估。
比如在前面已經(jīng)預(yù)估了LTV14為¥285,假如已知該渠道的CAC是¥30。
則預(yù)估的回本周期是=285/30=9.5天,即投入在該群用戶(hù)身上的成本需要9.5天方可回本。
5. 漏斗分析
漏斗分析是數(shù)據(jù)分析中比較常見(jiàn)的分析模型。采取漏斗的方式直觀地表示業(yè)務(wù)從起點(diǎn)到終點(diǎn)的各個(gè)環(huán)節(jié)的轉(zhuǎn)化情況,以便找出有問(wèn)題的環(huán)節(jié),針對(duì)性的優(yōu)化。
如下圖,展示了用戶(hù)支付場(chǎng)景的轉(zhuǎn)化率:用戶(hù)從打開(kāi)APP到完成支付的過(guò)程。分為進(jìn)入首頁(yè)→進(jìn)入商詳頁(yè)→加入購(gòu)物車(chē)→提交訂單→支付完成,直觀分析每個(gè)重要環(huán)節(jié)的轉(zhuǎn)化率。以最直觀最簡(jiǎn)單的方式反映出每個(gè)關(guān)鍵環(huán)節(jié)的轉(zhuǎn)化率,洞察主要問(wèn)題所在。
6. 波士頓矩陣
波士頓矩陣不少人在大學(xué)期間學(xué)過(guò),工作中也是比較實(shí)用的。可通過(guò)波士頓矩陣分析公司的產(chǎn)品結(jié)構(gòu),發(fā)現(xiàn)痛點(diǎn),為是否需要及時(shí)調(diào)整戰(zhàn)略目標(biāo),以及判斷產(chǎn)品的資源分配是否合理提供了數(shù)據(jù)支持。
波士頓矩陣有以下4種結(jié)構(gòu)類(lèi)型:
- 明星產(chǎn)品:成長(zhǎng)期。該產(chǎn)品在市場(chǎng)上占有比較大的份額,且處于高速增長(zhǎng)階段。未來(lái)發(fā)展為金牛產(chǎn)品的可能性比較大。此時(shí)抓住機(jī)會(huì)擴(kuò)大投資,提升競(jìng)爭(zhēng)優(yōu)勢(shì)。如圖中的蜜桔、香蕉、蘋(píng)果。
- 金牛產(chǎn)品:成熟期。產(chǎn)品已較為成熟,增長(zhǎng)前景有限。穩(wěn)定發(fā)展,盡量維持好當(dāng)前市場(chǎng)份額。如圖中的西瓜、櫻桃。
- 問(wèn)題產(chǎn)品:導(dǎo)入期。高速增長(zhǎng)卻市場(chǎng)份額并不高。說(shuō)明此產(chǎn)品雖然高速增長(zhǎng),但并未及時(shí)開(kāi)拓市場(chǎng),營(yíng)銷(xiāo)存在問(wèn)題。如圖中的獼猴桃、荔枝。
- 瘦狗產(chǎn)品:衰退期。既市場(chǎng)份額不高,又增速緩慢,基本可以淘汰,將此資源轉(zhuǎn)而投資給其他更有利的產(chǎn)品。如圖中的草莓、楊桃、哈密瓜。
7.?AARRR模型
AARRR模型是探索用戶(hù)增長(zhǎng)的模型。分別對(duì)應(yīng)用戶(hù)生命周期的5個(gè)環(huán)節(jié):用戶(hù)獲取、用戶(hù)激活、用戶(hù)留存、用戶(hù)變現(xiàn)、推薦傳播。
四、結(jié)語(yǔ)
以上就是圍繞著“數(shù)據(jù)”進(jìn)行的采集、處理與分析的過(guò)程,這個(gè)過(guò)程起著承上(需求確認(rèn))啟下(數(shù)據(jù)展現(xiàn))的作用,重要性不言而喻。
數(shù)據(jù)分析的知識(shí)點(diǎn)很廣闊,我寫(xiě)的這些也只是其中的非常小的一小部分。但經(jīng)驗(yàn)與專(zhuān)業(yè)性就是從小起步的,一點(diǎn)點(diǎn)積累,一點(diǎn)點(diǎn)成長(zhǎng)。
作者:Janie Liu;公眾號(hào):溜溜筆記說(shuō)
本文由 @溜溜筆記說(shuō) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Pexels,基于CC0協(xié)議
用戶(hù)的LTV是用戶(hù)生命周期價(jià)值,CAC是用戶(hù)獲取成本,LTV/CAC是反映價(jià)值與成本的關(guān)系,一般大于3顯得比較健康,但文章中LTV/CAC得到結(jié)論9.5天才能回本這個(gè)是什么邏輯?
https://mp.weixin.qq.com/s/200KcCxuvGE6XtuVEHggfg這里詳解了下,并不是大于3才是優(yōu)質(zhì)的。這只是一個(gè)慣用的比值,只作參考。1倍的話(huà)剛好回本,2倍的話(huà)相當(dāng)于賺了100%,其實(shí)比值為2就可以。但是考慮到研發(fā)投入、后續(xù)維護(hù)、人力物力財(cái)力等,各項(xiàng)都算進(jìn)去的話(huà),2倍就有可能無(wú)法達(dá)到盈利逾期,保險(xiǎn)起見(jiàn)3倍比較好。大于3又會(huì)顯得有些保守。
ltv/cac其實(shí)就是回本周期。
回本周期=ltv/cac這個(gè)能否解釋下,不是很理解。
感覺(jué)回本周期應(yīng)該是cac/ltv?
cac是用戶(hù)獲取成本,ltv是用戶(hù)生命周期價(jià)值,類(lèi)似于成本和收入的概念,兩者相除只是為了歸一化利潤(rùn)率的情況,個(gè)人認(rèn)為和回本周期關(guān)系不大。
生命周期價(jià)值分析那里是4.75×60=285吧 不是12
對(duì)的,乘以60。不好意思筆誤了……??
用戶(hù)生命周期價(jià)值分析沒(méi)看明白
我公眾號(hào)里面針對(duì)用戶(hù)生命周期價(jià)值詳細(xì)的講解了下,可以看看
作為一個(gè)數(shù)據(jù)分析人員,這篇文章真的干貨滿(mǎn)滿(mǎn),給了我很多的啟發(fā)
謝謝 ????
對(duì)于數(shù)據(jù)的分析和處理一直以來(lái)是一個(gè)很重要的議題,一定要把握好的說(shuō)
是的~這一塊知識(shí)點(diǎn)很多,文章中也并沒(méi)說(shuō)的很全面,后續(xù)繼續(xù)學(xué)習(xí)繼續(xù)研究。有需要改進(jìn)的地方歡迎指出哈
數(shù)據(jù)分析看起來(lái)很困難,實(shí)則掌握技巧,操作起來(lái),便變得不困難
是的,化難為易