數(shù)據(jù)分析的三大框架:底層技術(shù)、分析建模、工具選擇
在搭建知識(shí)大廈之前,先需要建立知識(shí)的框架,然后才能高效的填充知識(shí)。所以本文主要跟大家分享如何建立框架。
先看下數(shù)據(jù)科學(xué)的世界觀,參考下面的思維導(dǎo)圖:
有了世界觀,我們可以開(kāi)始搭建自己的知識(shí)大廈了。在搭建知識(shí)大廈之前,先需要建立知識(shí)的框架,然后才能高效的填充知識(shí)。所以今天我們先建立框架。
數(shù)據(jù)分析的三大框架
數(shù)據(jù)科學(xué)的框架分為三部分:底層技術(shù)框架/數(shù)據(jù)分析框架/工具選擇框架,接下來(lái)依次給大家介紹:
1. 底層技術(shù)框架
底層技術(shù)框是數(shù)據(jù)科學(xué)的基礎(chǔ)設(shè)施,我們有所了解就好,處理框架和處理引擎負(fù)責(zé)對(duì)數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)進(jìn)行計(jì)算。
流處理系統(tǒng):流處理系統(tǒng)會(huì)對(duì)隨時(shí)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算。相比批處理模式,這是一種截然不同的處理方式。流處理方式無(wú)需針對(duì)整個(gè)數(shù)據(jù)集執(zhí)行操作,而是對(duì)通過(guò)系統(tǒng)傳輸?shù)拿總€(gè)數(shù)據(jù)項(xiàng)執(zhí)行操作。
流處理中的數(shù)據(jù)集是“無(wú)邊界”的,這就產(chǎn)生了幾個(gè)重要的影響:
- 完整數(shù)據(jù)集只能代表截至目前已經(jīng)進(jìn)入到系統(tǒng)中的數(shù)據(jù)總量。
- 工作數(shù)據(jù)集也許更相關(guān),在特定時(shí)間只能代表某個(gè)單一數(shù)據(jù)項(xiàng)。
批處理系統(tǒng):批處理在大數(shù)據(jù)世界有著悠久的歷史,批處理主要操作大容量靜態(tài)數(shù)據(jù)集,并在計(jì)算過(guò)程完成后返回結(jié)果。
批處理模式中使用的數(shù)據(jù)集通常符合下列特征:
- 有界:批處理數(shù)據(jù)集代表數(shù)據(jù)的有限集合;
- 持久:數(shù)據(jù)通常始終存儲(chǔ)在某種類(lèi)型的持久存儲(chǔ)位置中;
- 大量:批處理操作通常是處理極為海量數(shù)據(jù)集的唯一方法。
批處理非常適合需要訪問(wèn)全套記錄才能完成的計(jì)算工作,例如:在計(jì)算總數(shù)和平均數(shù)時(shí),必須將數(shù)據(jù)集作為一個(gè)整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計(jì)算進(jìn)行過(guò)程中數(shù)據(jù)維持自己的狀態(tài)。
2. 日常監(jiān)控框架
數(shù)據(jù)數(shù)據(jù)分析的工作分為倆部分,日常長(zhǎng)遠(yuǎn)工作(相當(dāng)于養(yǎng)兵千日)和針對(duì)項(xiàng)目/公司需求做的及時(shí)響應(yīng)(相當(dāng)于用兵一時(shí))。
日常長(zhǎng)遠(yuǎn)的工作主要是日常監(jiān)控系統(tǒng)。
2.1 日常監(jiān)控系統(tǒng)主要分為:測(cè)量/建立標(biāo)準(zhǔn)/發(fā)現(xiàn)異常
首先是測(cè)量
測(cè)量就是將具體的產(chǎn)品和業(yè)務(wù)轉(zhuǎn)化為數(shù)據(jù)的過(guò)程.本質(zhì)上來(lái)看,這個(gè)過(guò)程相當(dāng)于把一個(gè)現(xiàn)實(shí)世界的對(duì)象映射到我們的抽象空間里,先天的會(huì)存在很大的誤差,但是意義重大,統(tǒng)一了我們看待業(yè)務(wù)的方式。從此之后,我們對(duì)于業(yè)務(wù)的討論都在一樣的標(biāo)準(zhǔn)上進(jìn)行。同時(shí),也由于測(cè)量的先天誤差,測(cè)量值得不斷更新。
舉個(gè)栗子:一個(gè)內(nèi)容產(chǎn)品建立業(yè)務(wù)指標(biāo)的邏輯 假設(shè)你是內(nèi)容運(yùn)營(yíng),需要對(duì)現(xiàn)有的業(yè)務(wù)做一個(gè)分析,提高內(nèi)容相關(guān)數(shù)據(jù),你會(huì)怎么做呢?
我們把金字塔思維轉(zhuǎn)換一下,就成了數(shù)據(jù)分析方法了, 從內(nèi)容運(yùn)營(yíng)的流程開(kāi)始,它是:內(nèi)容收集——內(nèi)容編輯發(fā)布——用戶(hù)瀏覽——用戶(hù)點(diǎn)擊——用戶(hù)閱讀——用戶(hù)評(píng)論或轉(zhuǎn)發(fā)——繼續(xù)下一篇瀏覽。 這是一個(gè)標(biāo)準(zhǔn)的流程,每個(gè)流程都有指標(biāo)可以建立。內(nèi)容收集可以建立熱點(diǎn)指數(shù),看哪一篇內(nèi)容比較火。用戶(hù)瀏覽用戶(hù)點(diǎn)擊則是標(biāo)準(zhǔn)的PV和UV統(tǒng)計(jì),用戶(hù)閱讀是閱讀時(shí)長(zhǎng)。
2.2 建立標(biāo)準(zhǔn)和發(fā)現(xiàn)異常
有業(yè)務(wù)指標(biāo)體系,我們就可以監(jiān)控產(chǎn)品了,那么數(shù)據(jù)的波動(dòng)一定是因?yàn)楫a(chǎn)品本身的問(wèn)題嗎?其實(shí)不然。
想象這樣一種場(chǎng)景:你在一家做玩具跨境電商的公司,在3月份,發(fā)現(xiàn)公司玩具銷(xiāo)量出現(xiàn)大幅下滑,結(jié)果做了很多分析,提出了N種解決方案,依然收效甚微。被老板一頓痛罵之后,苦惱的回家,打開(kāi)電視一開(kāi),新聞聯(lián)播說(shuō):中美貿(mào)易危機(jī),出口行業(yè)受較大影響,領(lǐng)導(dǎo)表示親切關(guān)懷.。
原來(lái)數(shù)據(jù)異常,并不是公司的問(wèn)題,而是整個(gè)環(huán)境變了,而我們卻用了大量的時(shí)間精力分析自己的問(wèn)題。
所以我們要建立正常的標(biāo)準(zhǔn),我們每次比較都是預(yù)期標(biāo)準(zhǔn)比較的,而不是和0比較,也不是和最好的情況比較。
- 常見(jiàn)的基準(zhǔn):同行業(yè)平均水平/宏觀經(jīng)濟(jì)指標(biāo)/公司運(yùn)營(yíng)活動(dòng)預(yù)期。
- 發(fā)現(xiàn)異常:設(shè)定標(biāo)準(zhǔn)偏離正常標(biāo)準(zhǔn)3%算作異常,值得我們深入分析。
其實(shí)數(shù)據(jù)分析的日常工作,還可以包括豐富企業(yè)的模型庫(kù),這一點(diǎn)在下一部分的敘述會(huì)有所涉獵。
3. 面向項(xiàng)目的問(wèn)題分析框架
上面介紹完了數(shù)據(jù)分析師的日常工作,接下來(lái)介紹工作的另一部分——解決項(xiàng)目實(shí)際問(wèn)題。
3.1 發(fā)現(xiàn)并明確問(wèn)題
問(wèn)題的來(lái)源包括這幾個(gè)方面:
(1)業(yè)務(wù)部門(mén)的問(wèn)題需求
(2)監(jiān)控發(fā)現(xiàn)的異常數(shù)據(jù)
提出一個(gè)好問(wèn)題,往往比找到答案重要。
業(yè)務(wù)部門(mén)直接給出的問(wèn)題往往模糊不清,我們需要去分析問(wèn)題的本質(zhì),把他進(jìn)行簡(jiǎn)化抽象。
(3)對(duì)問(wèn)題進(jìn)行本質(zhì)分析
- 剝離自然語(yǔ)言,最后語(yǔ)句中只包含倆類(lèi)語(yǔ)句結(jié)構(gòu):A是B,A屬于B。
- 轉(zhuǎn)化為集合語(yǔ)言或者系統(tǒng)語(yǔ)言。
(4)把問(wèn)題歸結(jié)到幾種常見(jiàn)問(wèn)題類(lèi)型,或者轉(zhuǎn)化為常見(jiàn)問(wèn)題的組合,問(wèn)題的本質(zhì)類(lèi)型
價(jià)值判斷類(lèi),相當(dāng)于為什么的問(wèn)題。
首先應(yīng)該明確判斷的標(biāo)準(zhǔn),然后進(jìn)行打分。
現(xiàn)實(shí)類(lèi),相當(dāng)于是什么和怎么辦的問(wèn)題,可以近似為是因果/相關(guān)關(guān)系探索類(lèi)的問(wèn)題。
問(wèn)題的衍生類(lèi)型:
- 預(yù)測(cè)問(wèn)題:相當(dāng)于因果關(guān)系探索;
- 決策問(wèn)題:相當(dāng)于價(jià)值判斷類(lèi)問(wèn)題+因果關(guān)系探索;
- 分析原因問(wèn)題:相當(dāng)于因果關(guān)系類(lèi)問(wèn)題。
3.2 問(wèn)題的全方位分析
文獻(xiàn)綜述(俗稱(chēng)百度,當(dāng)然不僅僅包含百度)
針對(duì)提出的問(wèn)題,搜尋前人的分析,總結(jié)前人的經(jīng)驗(yàn)。常見(jiàn)的高質(zhì)量數(shù)據(jù)源:知乎、知網(wǎng)、谷歌學(xué)術(shù)。
問(wèn)題的探索性分析:
- 頭腦風(fēng)暴:頭腦風(fēng)暴法(Brain storming),是指由美國(guó)BBDO廣告公司的奧斯本首創(chuàng),該方法主要由價(jià)值工程工作小組人員在正常融洽和不受任何限制的氣氛中以會(huì)議形式進(jìn)行討論、座談,打破常規(guī),積極思考,暢所欲言,充分發(fā)表看法。
- 德?tīng)柗品ǎ?/strong>也稱(chēng)專(zhuān)家調(diào)查法 德?tīng)柗品ǎ卜Q(chēng)專(zhuān)家調(diào)查法,1946 年由美國(guó)蘭德公司創(chuàng)始實(shí)行。該方法是由企業(yè)組成一個(gè)專(zhuān)門(mén)的預(yù)測(cè)機(jī)構(gòu),其中包括若干專(zhuān)家和企業(yè)預(yù)測(cè)組織者,按照規(guī)定的程序,背靠背地征詢(xún)專(zhuān)家對(duì)未來(lái)市場(chǎng)的意見(jiàn)或者判斷,然后進(jìn)行預(yù)測(cè)的方法。
- scrum 項(xiàng)目管理方法:它是由三個(gè)角色(產(chǎn)品負(fù)責(zé)人、scrum專(zhuān)家、團(tuán)隊(duì)成員)、四個(gè)儀式(沖刺計(jì)劃會(huì)、每日站會(huì)、沖刺評(píng)審會(huì)、沖刺回顧會(huì))和三個(gè)物件(產(chǎn)品積壓、沖刺積壓、燃盡圖)組成的一套項(xiàng)目管理方法。沖刺,是一次竭盡權(quán)力的都安排,scrum的核心,是把整個(gè)項(xiàng)目分成若干個(gè)沖刺,每次2-4周,沖萬(wàn)一次再來(lái)一次。
3.3 數(shù)據(jù)收集
內(nèi)部數(shù)據(jù):由公司業(yè)務(wù)體系決定,公司內(nèi)部產(chǎn)生的互數(shù)據(jù)。
- 常用工具有:GA/百度統(tǒng)計(jì);
- 也有公司自建數(shù)據(jù)庫(kù):通過(guò)SQL查詢(xún)。
外部數(shù)據(jù):
- 常見(jiàn)指數(shù):百度指數(shù)、阿里指數(shù)、谷歌趨勢(shì)指數(shù)、騰訊TBI指數(shù)、經(jīng)濟(jì)指數(shù)(大盤(pán)指數(shù)等)
- 競(jìng)品監(jiān)控:ALEXA / similar WEB。
3.4 數(shù)據(jù)的預(yù)處理和預(yù)分析
我們收集來(lái)的數(shù)據(jù),并不能直接使用,而是需要先進(jìn)行清洗。
預(yù)處理主要是指清洗好數(shù)據(jù)之后,可以對(duì)數(shù)據(jù)做一下粗略分析,方便建模的深入。
預(yù)分析-主要是 針對(duì)對(duì)象做描述統(tǒng)計(jì),包括分布、集中/離散趨勢(shì),包括均值/方差/偏度/峰度/分位數(shù)等,也包括相關(guān)性的探索性分析。
3.5 選擇模型
模型空間的構(gòu)建:這是個(gè)無(wú)限集合,其實(shí)模型的收集永無(wú)止境。我們也可以按照演繹的體系去梳理模型空間,我們主要收集的是三類(lèi)模型:商業(yè)/統(tǒng)計(jì)/數(shù)據(jù)挖掘。
商業(yè)分析模型:麥肯錫等咨詢(xún)公司根據(jù)商業(yè)需要總結(jié)的一些分析框架,我們的模型大多來(lái)自咨詢(xún)公司,也可以根據(jù)業(yè)務(wù)理解,自己建立。
比如:波特五力模型是邁克爾·波特(Michael Porter)于20世紀(jì)80年代初提出。他認(rèn)為行業(yè)中存在著決定競(jìng)爭(zhēng)規(guī)模和程度的五種力量,這五種力量綜合起來(lái)影響著產(chǎn)業(yè)的吸引力以及現(xiàn)有企業(yè)的競(jìng)爭(zhēng)戰(zhàn)略決策。五種力量分別為同行業(yè)內(nèi)現(xiàn)有競(jìng)爭(zhēng)者的競(jìng)爭(zhēng)能力、潛在競(jìng)爭(zhēng)者進(jìn)入的能力、替代品的替代能力、供應(yīng)商的討價(jià)還價(jià)能力、購(gòu)買(mǎi)者的討價(jià)還價(jià)能力。
統(tǒng)計(jì)模型,主要是依靠統(tǒng)計(jì)學(xué)知識(shí)。各種分布和檢驗(yàn)的關(guān)系原理,這部分需要很好的數(shù)學(xué)基礎(chǔ),我這里只簡(jiǎn)單的給出輸入條件和輸出條件,至于其中的具體原理,有機(jī)會(huì)做一個(gè)概述。
數(shù)據(jù)挖掘模型:
- 生成模型:由數(shù)據(jù)學(xué)習(xí)聯(lián)合概率分布P(X,Y),然后求出條件概率分布P(Y|X)作為預(yù)測(cè)模型,即生成模型P(Y|X)=P(X,Y)/P(X)——存在隱變量。典型的生成模型:樸素貝葉斯法,隱馬爾可夫模型。
- 判別模型:由數(shù)據(jù)直接學(xué)習(xí)決策函數(shù)f(X)或者條件概率分布P(Y|X)作為預(yù)測(cè)的模型。即對(duì)給定的輸入X,應(yīng)該預(yù)測(cè)什么樣的輸出Y。典型的判別模型:k近鄰法、感知機(jī)、決策樹(shù)、邏輯斯蒂回歸模型、最大熵模型、支持向量機(jī)、提升方法、條件隨機(jī)場(chǎng)。
監(jiān)督學(xué)習(xí)三類(lèi)問(wèn)題:分類(lèi)問(wèn)題、標(biāo)注問(wèn)題、回歸問(wèn)題。
可用于分類(lèi)問(wèn)題的統(tǒng)計(jì)學(xué)習(xí)方法:k近鄰法,感知機(jī),樸素貝葉斯法,決策樹(shù),決策列表,邏輯斯蒂回歸模型,支持向量機(jī),提升方法,貝葉斯網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò),Winnow 可用于標(biāo)注問(wèn)題的統(tǒng)計(jì)學(xué)習(xí)方法:隱馬爾可夫模型,條件隨機(jī)場(chǎng)。
模型的選取標(biāo)準(zhǔn):
- 根據(jù)業(yè)務(wù)需求,確定優(yōu)先級(jí)進(jìn)行打分;
- 根據(jù)測(cè)試效果選擇。
模型在具體問(wèn)題下的構(gòu)建:
- 數(shù)據(jù)挖掘問(wèn)題的模型求解;
- 根據(jù)業(yè)務(wù)實(shí)際需要調(diào)整模型。
模型評(píng)價(jià):基準(zhǔn)模型,其他建模嘗試。
- 多元線性回歸作為基準(zhǔn)模型;
- 其他模型效果明顯提高,認(rèn)為超越基準(zhǔn)模型。
3.6 成果輸出
成果輸出,一般是面向組織內(nèi)部,比如:同事、老板,也有可能面向吃瓜群眾,這倆種情況的原則很不一樣,組織內(nèi)部是理性交流,要講邏輯,面向觀眾,則要講情感。
(1)結(jié)構(gòu)化 mece法則
MECE,是Mutually Exclusive Collectively Exhaustive 縮寫(xiě),中文意思是“相互獨(dú)立,完全窮盡”。 也就是對(duì)于一個(gè)重大的議題,能夠做到不重疊、不遺漏的分類(lèi),而且能夠借此有效把握問(wèn)題的核心,并成為有效解決問(wèn)題的方法。 它是麥肯錫的第一個(gè)女咨詢(xún)顧問(wèn)巴巴拉·明托(Barbara Minto)在金字塔原理(The Minto Pyramid Principle)中提出的一個(gè)很重要的原則。
可視化的本質(zhì)是面對(duì)非本領(lǐng)域?qū)<?,為了方便信息的傳達(dá),用圖形直觀的方式展示分析成果(分析模型),圖形主要是各種統(tǒng)計(jì)圖表和邏輯框架圖.,圖形的選擇標(biāo)準(zhǔn)主要是根據(jù)變量屬性(定量數(shù)據(jù)還是定類(lèi)數(shù)據(jù)),變量個(gè)數(shù),希望達(dá)成的展示目標(biāo)決定。
具體選擇原則見(jiàn)下圖:
面向吃瓜群眾的成果輸出,感官刺激,如果是面向吃瓜群眾,那么要盡量減少邏輯/說(shuō)理的成分,盡量用視覺(jué)化的表達(dá).視覺(jué)想象是第一說(shuō)服力。生活中我們做事情,并不是理性對(duì)理性,更多的時(shí)候都是感情對(duì)感情。
3.7 模型反饋
知道貝葉斯定理嗎?其實(shí)我們最終得到的模型,本質(zhì)是一個(gè)假設(shè),具體有效沒(méi)效,需要在實(shí)踐中檢驗(yàn)。
模型評(píng)價(jià):模型效果=模型預(yù)測(cè)-實(shí)際情況。
關(guān)于工具選擇的框架
我們需要區(qū)分方法和工具,以上談到的數(shù)據(jù)分析框架是方法,而實(shí)現(xiàn)這些方法可以人力完成,也可以借助計(jì)算機(jī)輔助,目前計(jì)算機(jī)輔助數(shù)據(jù)分析工具主要是三部分:
- 計(jì)算機(jī)語(yǔ)言:Python 和 R. 我學(xué)習(xí)的是Python,Python具有高擴(kuò)展的能力,幾乎在計(jì)算機(jī)各個(gè)領(lǐng)域都有應(yīng)用. R具有非常全面的數(shù)學(xué)分析包,也是不錯(cuò)的選擇;
- 軟件:Excel ,power BI等. 入門(mén)的話可以掌握Excel,Excel提供了實(shí)現(xiàn)以上框架的全流程操作,不僅僅是做個(gè)表格那么簡(jiǎn)單. powerBI 是微軟推出的免費(fèi)的商業(yè)智能軟件,是可視化不錯(cuò)的工具;
- 各種小型工具 主要是各種指數(shù)工具,還有各種數(shù)據(jù)收集工具,以下給出了圍繞營(yíng)銷(xiāo)漏斗的工具集合。
總結(jié)
聊點(diǎn)輕松的,steam教育
STEAM教育思想思潮 STEAM代表科學(xué)(Science),技術(shù)(Technology),工程(Engineering),藝術(shù)(Arts),數(shù)學(xué)(Mathematics)。STEAM教育就是集科學(xué),技術(shù),工程,藝術(shù),數(shù)學(xué)多學(xué)科融合的綜合教育。
steam教育并不是要求我們面面俱到,而是希望我們?cè)?-2個(gè)領(lǐng)域達(dá)到80%的水準(zhǔn),在若干領(lǐng)域達(dá)到60%的程度。這一方面是因?yàn)槲覀冃枰娴囊暯?,這樣我們可以更加清醒的認(rèn)識(shí)世界,也是因?yàn)楝F(xiàn)實(shí)業(yè)務(wù)需要我們有這樣的能力。
商業(yè)發(fā)展到今天,工作中我們遇到的問(wèn)題已經(jīng)不是簡(jiǎn)單重復(fù)就可以完成的,我們需要?jiǎng)?chuàng)造性的建模,建模要求我們有廣闊的模型空間可以選擇,而STEANM教育可以給我們提供廣闊的模型空間,我們?cè)诶锩婵梢苑奖愕念?lèi)比,方便的尋找同構(gòu)解。
以“如何有效對(duì)比”這一簡(jiǎn)單的問(wèn)題,我們?cè)囍诟鱾€(gè)領(lǐng)域?qū)ふ彝瑯?gòu)問(wèn)題,科學(xué)方法論中的對(duì)照實(shí):實(shí)驗(yàn)組與對(duì)照組設(shè)置。
金融學(xué)中的收益評(píng)價(jià):一個(gè)金融產(chǎn)品收益=基準(zhǔn)收益(大盤(pán)指數(shù))+實(shí)際產(chǎn)品特性導(dǎo)致的收益。
宏觀經(jīng)濟(jì)學(xué):房?jī)r(jià)增速 = 基準(zhǔn)(經(jīng)濟(jì)發(fā)展水平+城市化水平+通貨膨脹)+泡沫。
微觀經(jīng)濟(jì)學(xué):沉沒(méi)成本不是成本,機(jī)會(huì)成本才是真正的成本。一個(gè)選擇的真實(shí)價(jià)值=該選擇價(jià)值-其他所有選擇中價(jià)值最大的那個(gè)選項(xiàng)的價(jià)值。
歷史學(xué)研究現(xiàn)代化:理想現(xiàn)代化模板:英國(guó),其他國(guó)家的現(xiàn)代化=英國(guó)模式+波動(dòng)調(diào)整。
以上通過(guò)一個(gè)簡(jiǎn)單的例子,想說(shuō)明開(kāi)闊眼界的重要性,這也是為什么說(shuō) steam人才儲(chǔ)備量是衡量一個(gè)國(guó)家實(shí)力的重要標(biāo)志.
關(guān)于整個(gè)知識(shí)體系的詳細(xì)描述,將會(huì)在最后一篇數(shù)據(jù)科學(xué)邊界,做一些討論,可以關(guān)注。
今天寫(xiě)的內(nèi)容有點(diǎn)多,如果不了解不要著急,接下來(lái)幾天會(huì)有對(duì)框架詳細(xì)的論述。
本文由 @小祁?lèi)?ài)數(shù)據(jù) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
寫(xiě)得亂,看不眀白
歡迎關(guān)注我的個(gè)人公眾號(hào) 小祁同學(xué)的成長(zhǎng)故事
??我是小祁