數(shù)據(jù)分析中的硬實力與軟實力「如何鍛造解決問題的能力」
編輯導(dǎo)讀:數(shù)據(jù)分析師作為互聯(lián)網(wǎng)行業(yè)背景下誕生的崗位,聽上去非常高大上,也有不錯的職業(yè)發(fā)展前景。本文作者針對數(shù)據(jù)分析這個崗位進行了分析,與你分享。
本文來自知乎問答。
問題:想做一名數(shù)據(jù)分析師,自學(xué)了《統(tǒng)計學(xué)》、R、SQL等。入門級別的,現(xiàn)在有點迷茫了,下步學(xué)什么才是合適的?
我目前自學(xué)了《統(tǒng)計學(xué)》、JAVA、R、SQL、SPSS。但都是學(xué)到學(xué)門級別的,現(xiàn)在有點迷茫了,數(shù)據(jù)分析有那么多工具,不知道學(xué)哪些才是最正確的,不知道怎么規(guī)劃了(問題重點)。我目前考慮的問題主要有兩個:
- 短期希望找到一份相關(guān)的工作(目前事業(yè)編混日子)。
- 長期規(guī)劃是做一名數(shù)據(jù)科學(xué)家不想走偏了。
正文:
同樣是因為喜愛而轉(zhuǎn)行踏上數(shù)據(jù)科學(xué)之路。
畢業(yè)工作后,業(yè)余時間我一直在關(guān)注人工智能的新聞,出于興趣開始在晚上自學(xué)相關(guān)的理論知識、工具例如統(tǒng)計學(xué)、python。突然有一天,我心血來潮,忽然想通了,為何不投身喜愛的行業(yè),要不然也只是空有一腔熱血。
于是我便馬不停蹄地開始學(xué)習(xí)Python,并決定從人工智能時代通用基礎(chǔ)能力——數(shù)據(jù)分析入手。
但因為是零基礎(chǔ)轉(zhuǎn)行,所以剛?cè)肼毢芏喽疾粫?,挨罵最多的就是做的計劃不落地、提的方案脫離業(yè)務(wù)場景……經(jīng)歷了許多項目、積累了經(jīng)驗后,我總結(jié)了以下能幫到你的經(jīng)驗。
一、工具篇——硬實力
從題主學(xué)習(xí)了這么多工具的經(jīng)歷,想必跟我一樣是個“工具控”,接觸到有趣又強大的工具會忍不住去學(xué)習(xí)。
現(xiàn)在我作為數(shù)據(jù)分析師,題主說的工具我都有在用,目前我在用的一些相關(guān)工具的應(yīng)用場景:
1. Python
常用的數(shù)據(jù)分析工具,數(shù)據(jù)科學(xué)界的明星產(chǎn)品。幾乎是萬能的工具,尤其是在解決重復(fù)性工作、大數(shù)據(jù)分析等場景方面特別好用。在Python列入小學(xué)課程的時代里,它絕對是值回票價的編程語言。
2. SQL
通用的數(shù)據(jù)庫語言,對于數(shù)據(jù)分析師而言,可以完成取數(shù)、分析工作。所謂巧婦難為無米之炊,SQL可以從源頭上解決無數(shù)據(jù)的問題,要不然你是無法想象IT是如何拒絕或延后你的提數(shù)需求的。
3. SPSS
“傻瓜式”的數(shù)據(jù)分析圖形軟件,可以像操作Excel那樣點點點,很簡單地完成復(fù)雜的數(shù)據(jù)分析工作,例如相關(guān)性分析、回歸建模等。
(如圖為我在實戰(zhàn)中使用SPSS進行特征挖掘的PPT)
目前我工作中,很喜歡用它的可視化決策樹。在實際的數(shù)據(jù)挖掘工作中,可解釋性是很重要的一環(huán),它很多時候決定了模型的邏輯及結(jié)論是否被業(yè)務(wù)所認(rèn)可。眾多模型中,線性/邏輯回歸在這方面絕對是老大,而在我發(fā)現(xiàn)了SPSS中將決策樹模型可視化這個逆天功能后,它就成為了我分析的最愛之一,得益于易懂的可視化圖形,它的邏輯與結(jié)論往往也很能被業(yè)務(wù)所接受。
4. R
數(shù)據(jù)科學(xué)界的老大之一,統(tǒng)治著專業(yè)的統(tǒng)計學(xué)、生物、醫(yī)學(xué)等領(lǐng)域。目前我在用它,是因為公司的銷售預(yù)測模型是其他同事用R語言寫的。
R與Python的差異在于:R是統(tǒng)計語言,有很多優(yōu)秀的框架,例如Python里最常用的Pandas庫就是從R移植過去的,再例如可視化圖表的庫的表現(xiàn)一騎絕塵。但是在自動化辦公、應(yīng)用領(lǐng)域卻沒有Python廣。
所以,建議剛?cè)胄械耐葘W(xué)Python這個性價比高的語言,等有進一步明確的需求后,再按需學(xué)習(xí)R即可。
5. Power BI
非常優(yōu)秀的可視化分析工具。在用Python做數(shù)據(jù)分析時,很多時候只能將分析結(jié)論可視化后黏貼到PPT里,對業(yè)務(wù)來說,他們更想要有可互動、動態(tài)更新的可視化分析結(jié)果。而這,就是我應(yīng)用PowerBI的場景:數(shù)據(jù)導(dǎo)入后,建模分析,形成的分析報表業(yè)務(wù)直接點點點就可以感受到數(shù)據(jù)變化與特點。
但是PowerBI的建模思維有一定的門檻,而對于大多數(shù)分析師來說,Excel的圖表已經(jīng)可以滿足。所以建議初學(xué)者先學(xué)習(xí)靈活應(yīng)用Excel的可視化能力。
6. JAVA
是使用最廣的開發(fā)語言,與數(shù)據(jù)分析關(guān)系不大。我之所以學(xué)它,是因為我負(fù)責(zé)的數(shù)據(jù)產(chǎn)品幾乎都是用Java開發(fā)的數(shù)據(jù)接口,所以才需要懂一些基礎(chǔ)。
想要從事數(shù)據(jù)分析工作的同學(xué),不建議學(xué)習(xí)Java
7. 分析工具的優(yōu)勢
以上的提及的工具,建議挑選1-2個,如SQL+Python,進階學(xué)習(xí)。最重要的是進行項目實戰(zhàn),可作為短期找工作的敲門磚。
掌握分析工具可以更快地在業(yè)務(wù)公司搶得眼球,可以應(yīng)對復(fù)雜的業(yè)務(wù)需求。
工具無法解決的問題——對業(yè)務(wù)場景的理解
工具可以解決很多深度分析需求,但是重要核心還是用工具的人,分析思維還是要回歸業(yè)務(wù)場景。
二、思維篇——軟實力
職場里真正重要的是:解決問題的能力,而它由定義問題、找到原因、落地建議三部分組成。
業(yè)務(wù)需求的提出,簡單地說,便是業(yè)務(wù)在運營過程中,發(fā)現(xiàn)了問題,故想通過數(shù)據(jù)分析找出問題原因所在,進而解決它。
1. 定義問題的能力
只有正確的問題才能指引數(shù)據(jù)分析工作往正確的方向進行。
從一個模糊的問題說起:今天領(lǐng)導(dǎo)提出,最近老客表現(xiàn)差了。
下面對領(lǐng)導(dǎo)提的問題進行剖析:
【觀點與事實】
“最近老客表現(xiàn)差了”,首先這是一個觀點,不是事實。
【還原事實真相】
作為專業(yè)的數(shù)據(jù)分析師拿到這樣的觀點之后,第一件事是要還原事實的全部:
- 最近:最近是多長時間周期,這周?近三周?還是上個月?
- 老客:如何定義老客?以往注冊過、但并未消費的客戶?還是說一定是有歷史消費的客戶?
- 表現(xiàn):哪個指標(biāo)?重購金額?回柜人數(shù)?
- 差了:是同比下降,還是環(huán)比下降,還是說增長幅度不及預(yù)期?
面對領(lǐng)導(dǎo)的業(yè)務(wù)觀點,我們還原的事實是:上個月(2020年12月1日-12月31日),以往消費過的老客,在回柜消費時產(chǎn)生的消費金額,環(huán)比(與2020年11月1日-11月30日)下降了30%。
【事實與觀點】
組建好事實集合后,要利用信度效度思維,重新審視領(lǐng)導(dǎo)的觀點是否客觀、合理。
信度:
代表的是數(shù)據(jù)的可靠性程度和一致性程度,反映數(shù)據(jù)的穩(wěn)定性和集中程度
也就是說,數(shù)據(jù)計算結(jié)果之前的取數(shù)邏輯、數(shù)據(jù)清洗工作是否合理,是否符合業(yè)務(wù)場景邏輯?
效度:
指測量工具能夠準(zhǔn)確測量出事物真實情況的能力,反映數(shù)據(jù)的準(zhǔn)確性。
簡單地說,這樣環(huán)比的比較是否有意義?例如品牌或行業(yè)屬性是節(jié)日敏感的,上上個月有雙十一大促,而12月是淡季沒有活動,不論是橫向與行業(yè)內(nèi)其他公司,還是縱向按往年的經(jīng)驗,12月重購金額比11月下降20-30%是合理的波動區(qū)間。
所以,這樣的事實似乎無法支撐領(lǐng)導(dǎo)的觀點。
2. 尋找原因的能力
實際工作中,找到問題,并將它明確之后,就要抽絲剝繭般找到問題背后的原因,而這一定要回歸業(yè)務(wù)場景本身,才能在理解業(yè)務(wù)的背景下,通過數(shù)據(jù)分析,找到原因所在。
【了解業(yè)務(wù)】——梳理業(yè)務(wù)流程
了解業(yè)務(wù)的過程,實際上就是在不斷溝通的過程,這也引申出數(shù)據(jù)分析師職業(yè)特性:溝通、溝通與溝通!對此暫不展開講。在與業(yè)務(wù)溝通的過程中,要盡可能多且深入地了解目前業(yè)務(wù)的動態(tài),盡可以還原業(yè)務(wù)的全貌。
這個例子里,因為是在單品價格高的行業(yè)里,客戶購買產(chǎn)品后,因為產(chǎn)品價值高,所以一般都會存在護理需求,所以售后政策是在質(zhì)保期內(nèi)可以免費護理1次。
而業(yè)務(wù)也正是找到了這個切入點,針對已享受過護理次數(shù)的客戶,贈送免費的護理次數(shù),以吸引他們到店來護理,而有了面對顧客的機會,自然也就有進一步銷售的可能。所以現(xiàn)場還會準(zhǔn)備新品、活動宣傳等材料,處處精心營造成沖動消費的心理暗示。
【建立公式】——數(shù)據(jù)思維+業(yè)務(wù)流程
從業(yè)務(wù)流程中抽象出來:圈選目標(biāo)客戶 → 通過護理吸引到店 → 營銷促銷 → 消費。
應(yīng)用數(shù)據(jù)思維,進一步抽象成公式:老客重購金額 = 目標(biāo)老客數(shù) * 到店率 * 轉(zhuǎn)化率 * 客單價。
抑或用“人貨場”業(yè)務(wù)思維進行討論。
【理解業(yè)務(wù)】——搭建業(yè)務(wù)模型
基于公式,將流程建成立體的網(wǎng)狀結(jié)構(gòu),形成針對某個具體場景的業(yè)務(wù)模型。
【數(shù)據(jù)分析】—— 找到問題所在
通過在業(yè)務(wù)模型的框架內(nèi)進行分析比較,我們才能看到某一個業(yè)務(wù)的全貌,才能發(fā)現(xiàn)背后是哪個模塊引出的問題。例如案例中,數(shù)據(jù)分析發(fā)現(xiàn)觸達客戶中,回柜率很低,問題可能在“老客”、“回柜”。
從歷史數(shù)據(jù)上看,此次采取的吸引到店玩法都是很成熟的策略,有很好的成功案例,數(shù)據(jù)表現(xiàn)良好,所以問題可能就是出在“客戶池”——運營維護部分,如沒有分群營銷。
3. 落地建議的能力
【KPI相關(guān)】
分析項目是否可推動實現(xiàn)很大程度上取決于是否切合業(yè)務(wù)KPI。
根據(jù)多次和業(yè)務(wù)合作的經(jīng)驗,尤其是對數(shù)字化決策不那么敏感的公司, 甚至是由上至下的數(shù)據(jù)分析項目,分析結(jié)論很容易淪為一紙報告,而不了了之。很大程度上,是因為分析建議與實際業(yè)務(wù)動態(tài)偏離,即并不是業(yè)務(wù)的考核重點。在資源有限的情況下,也就難以執(zhí)行。
所以,在最后給落地建議的階段,還是要回歸業(yè)務(wù),了解業(yè)務(wù)的運營計劃,在現(xiàn)有的項目下,去試驗、實踐分析建議。
【符合實際操作】
不要嘗試去改變業(yè)務(wù)習(xí)慣。
問題在于用戶分群的問題,應(yīng)用RFM模型進行精細(xì)化運營。一般來說,RFM模型分為八大人群,根據(jù)不同人群特點進行精細(xì)化管理,例如案例中,針對重要價值人群進行新品發(fā)布會邀請等差異化體驗,針對重要喚回人群進行節(jié)日關(guān)懷策略等。
但是如果了解實際業(yè)務(wù)操作的話,對于零售企業(yè)來說,并不會按八個人群去實踐,而是選其中的幾個重要人群,或者進行二次組合,以減少客服部門的觸達量。
知道這樣的背景后,就不要再去建議說分成八個人群給不同的建議,而是有優(yōu)先級地劃出人群優(yōu)先級,或者配合給人群合并運營建議等。這樣考慮到實際操作情況,業(yè)務(wù)自然也能感受。
【分析深度】
另一個落地建議,就是一定要具體可行。
在已知數(shù)據(jù)分析結(jié)論不容易落地的情況下,將結(jié)論建議盡可能地具體,給出“令人驚喜的”發(fā)現(xiàn),才能更容易去推動項目。
但是不要忘記數(shù)據(jù)分析與業(yè)務(wù)執(zhí)行之間的邊界,在大部分情況下不要嘗試去給具體的落地計劃,否則很可能會引起反效果。
如何做到具體可行?則需要縱向的分析深度:
分析模型的深度理解:
如圖RFM分析案例中,但在我看來,RFM模型的’KPI’在于良性人群的占比提升。所以將門店RFM人群結(jié)構(gòu)及關(guān)鍵數(shù)據(jù)進行同期對比,可以達到進一步分析的目的。
杜邦分析與指標(biāo)拆解:
這部分內(nèi)容可以參考:數(shù)據(jù)分析的結(jié)果該如何落地? | 人人都是產(chǎn)品經(jīng)理 (woshipm.com)
本文由 @餅干哥哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
寫的不錯
大佬~