從電影中看:探索性數(shù)據(jù)分析思維應(yīng)用

0 評(píng)論 2703 瀏覽 10 收藏 11 分鐘

在電影《東方快車謀殺案》中,神探波洛利用探索性分析的思維方式完美破案,而在日常工作中,我們也可以利用該思維解決難題。

現(xiàn)在已經(jīng)進(jìn)入DT時(shí)代,海量、混亂的數(shù)據(jù)不斷涌來(lái),我們需要理清頭緒,探尋數(shù)據(jù)間的內(nèi)在聯(lián)系,這就好像偵探辦案,雖然人們總形容偵探“目光犀利、嗅覺(jué)敏銳”,似乎偵探是條犬科動(dòng)物。然而偵探本人通常不會(huì)僅僅靠著自己的眼睛和鼻子辦事兒。

她的做法看起來(lái)科學(xué)得多——將所有能夠搞到的證據(jù)搜集到一起,所有能拿到的數(shù)據(jù)拿到手里,然后在其中尋找規(guī)律。

在《東方快車謀殺案》中,波洛偵探完美地為我們演示了一遍如何收集證據(jù)與數(shù)據(jù),然后從中獲得洞察。在一個(gè)下著雪的深夜,一個(gè)男人離奇而死。沒(méi)有目擊證人,身上的刀疤參差不齊,就連宿在附近車廂的偵探本人也沒(méi)有在慘案發(fā)生時(shí)發(fā)現(xiàn)端倪。

不過(guò),就像在旅途中也要保持得體裝扮一樣,波洛偵探面臨謎題,表現(xiàn)得同樣有條不紊。

首先,他挨個(gè)盤問(wèn)了列車上的每一位乘客,不管對(duì)方人設(shè)是冷靜縝密、還是神經(jīng)兮兮。然后,他將這些人的語(yǔ)言與行為如拼拼圖一般,拼在了一起,并理出了一個(gè)時(shí)間線。在這個(gè)過(guò)程中,他不斷地思考:

  • 哪些信息能支持自己的假設(shè)?
  • 哪些信息互相矛盾?
  • 我還需要回答什么問(wèn)題?
  • 還有——之后我需要做什么,才能回答這些問(wèn)題?

“想來(lái)你對(duì)我這種詢問(wèn)方式很不以為然?!辈鍌商綄?duì)瑪麗說(shuō):“你原來(lái)想的不是這種,而是英國(guó)式的。凡事都該準(zhǔn)備停當(dāng)——擺出事實(shí),按部就班??墒切〗悖疫@人倒有點(diǎn)兒與眾不同。首先我得先見(jiàn)見(jiàn)證人,摸清他或她的脾性,然后再相應(yīng)地提出問(wèn)題來(lái)。”

波洛列出的問(wèn)題足足有10條:

  1. 繡著首字母H的手帕,是誰(shuí)的?
  2. 煙斗通條,是誰(shuí)的?
  3. 誰(shuí)穿鮮紅色、繡著龍的睡衣?
  4. 誰(shuí)把自己偽裝成列車員,男人還是女人?
  5. 為什么死者的表針會(huì)指到一點(diǎn)一刻?
  6. 謀殺發(fā)生在那個(gè)時(shí)間嗎?
  7. 還是在那個(gè)時(shí)間之前?
  8. 或是之后?
  9. 能確信殺手不止一個(gè)人嗎?
  10. 死者身上的刀傷還有其它解釋嗎?

這些是否也是你的疑問(wèn)?或者說(shuō),在聽(tīng)過(guò)各位乘客的回答后,你是否也產(chǎn)生了一些疑問(wèn)?如果答案是“yes”,恭喜你,你已經(jīng)在做探索性分析了!

EDA——探索性數(shù)據(jù)分析

探索性數(shù)據(jù)分析(EDA)是數(shù)據(jù)分析過(guò)程的第一部分。 在這個(gè)階段有幾件重要的事情要做,但歸結(jié)起來(lái)就是:

  • 弄清楚數(shù)據(jù)是什么;
  • 建立你想問(wèn)的問(wèn)題以及如何表達(dá)它們,
  • 提出最好的展示和操作數(shù)據(jù)的方式,以得出重要的見(jiàn)解。

EDAIDA的區(qū)別:

探索性數(shù)據(jù)分析有別于初始性數(shù)據(jù)分析(initial data analysis – IDA)。

  • 初始性數(shù)據(jù)分析的聚焦點(diǎn)是分析鑒別統(tǒng)計(jì)模型和科研假設(shè)測(cè)試所需的條件是否達(dá)到,以保證驗(yàn)證性分析的可靠性。在這個(gè)分析過(guò)程中對(duì)不符合條件的數(shù)據(jù)進(jìn)行缺值填補(bǔ)、數(shù)據(jù)轉(zhuǎn)換、異常值舍棄等處理以增強(qiáng)分析的準(zhǔn)確性。
  • 探索性數(shù)據(jù)分析包含初始性數(shù)據(jù)分析,但它的出發(fā)點(diǎn)不僅是確定數(shù)據(jù)質(zhì)量,而且更重視從數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)分布的模式(Patten)和提出新的假設(shè)。

你在探索 – 尋找線索。 就像波洛做的那樣,通過(guò)定量和可視化的方法,你不僅梳理出趨勢(shì)和模式,還能發(fā)現(xiàn)偏離模型,離群值和意想不到的結(jié)果——它們也很重要。你現(xiàn)在發(fā)現(xiàn)的東西將幫助你決定提出的問(wèn)題,研究領(lǐng)域,以及下一步采取的措施。

一切發(fā)現(xiàn) 符合假設(shè)的、不符合假設(shè)的,都是為了最后一步一步地走向真相

過(guò)去,在以抽樣統(tǒng)計(jì)為主導(dǎo)的傳統(tǒng)統(tǒng)計(jì)學(xué)中,探索性數(shù)據(jù)分析對(duì)驗(yàn)證性數(shù)據(jù)分析有著支持和輔助的作用。但由于抽樣和問(wèn)卷都是事先設(shè)計(jì)好的,對(duì)數(shù)據(jù)的探索性分析是有限的。到了大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)從多種渠道源源不斷地涌現(xiàn)出來(lái),已不受分析模型和研究假設(shè)的限制,如何從中找出規(guī)律、并產(chǎn)生分析模型和研究假設(shè)成為新挑戰(zhàn)。

這時(shí)候,探索性數(shù)據(jù)分析在對(duì)數(shù)據(jù)進(jìn)行概括性描述、發(fā)現(xiàn)變量之間的相關(guān)性以及引導(dǎo)出新的假設(shè)方面大顯身手。正如美國(guó)探索性數(shù)據(jù)分析創(chuàng)始人約翰?懷爾德杜克所說(shuō):

面對(duì)那些我們堅(jiān)信存在或不存在的事物時(shí),‘探索性數(shù)據(jù)分析’代表了一種態(tài)度,一種方法手段的靈活性,更代表了人們尋求真相的強(qiáng)烈愿望。

CDA——驗(yàn)證性數(shù)據(jù)分析

通常,偵探結(jié)案并不是故事的結(jié)束,還需要將罪犯以及罪證交給法庭,進(jìn)行審判。

我們將這個(gè)“審判”的過(guò)程稱為驗(yàn)證性數(shù)據(jù)分析。

驗(yàn)證性數(shù)據(jù)分析是您使用傳統(tǒng)統(tǒng)計(jì)工具(例如顯著性,推斷和置信度)來(lái)評(píng)估證據(jù)的部分。

在這一點(diǎn)上,你真的在挑戰(zhàn)你的假設(shè)。驗(yàn)證性數(shù)據(jù)分析的很大一部分就是對(duì)事物進(jìn)行量化,比如,你所建立的模型的任何偏離都可能偶然發(fā)生,在什么時(shí)候需要開(kāi)始質(zhì)疑你的模型呢?

CDA的內(nèi)容:

測(cè)試假設(shè),以特定精確度產(chǎn)生估計(jì),回歸分析和方差分析。

驗(yàn)證性和探索性數(shù)據(jù)分析的使用

實(shí)際上,探索性的和驗(yàn)證性的數(shù)據(jù)分析不是一個(gè)接一個(gè)地進(jìn)行,而是不斷地交織在一起,幫助您創(chuàng)建最好的分(破)析(案)模(套)型(路)。

我們舉一個(gè)例子來(lái)說(shuō)明實(shí)踐中的EDA與CDA。

場(chǎng)景:最近幾個(gè)月,流失用戶的數(shù)量一直在激增。產(chǎn)品一直在保持更新,性能也算穩(wěn)定,活動(dòng)也沒(méi)停,這種流失簡(jiǎn)直稱得上是一樁密室丟人案了。究竟發(fā)生了什么?

發(fā)現(xiàn)問(wèn)題:密室丟人案,比密室殺人案更讓運(yùn)營(yíng)感到棘手的案件

你開(kāi)始利用數(shù)據(jù)探索原因(EDA)。你調(diào)取了這些流失用戶的所有數(shù)據(jù)然后開(kāi)始尋找線索。在用了各種餅柱線氣泡樹(shù)從不同角度分析了數(shù)據(jù)之后,你發(fā)現(xiàn)丟失的用戶大多都是在同一個(gè)月內(nèi)注冊(cè)的。

鎖定異常:雖然每個(gè)月注冊(cè)的用戶都有流失,但很容易看出7月的問(wèn)題

經(jīng)過(guò)仔細(xì)調(diào)查,你發(fā)現(xiàn)在這個(gè)月中,雖然產(chǎn)品一直在保持更新,性能也算穩(wěn)定,活動(dòng)也沒(méi)停,但是你們自己卻把常用的CRM系統(tǒng)給換了。結(jié)果,一部分客戶沒(méi)有收到產(chǎn)品的入門教程。

現(xiàn)在你產(chǎn)生了一個(gè)大(合)膽(理)的假設(shè):這些人是因?yàn)闆](méi)有得到入門教程而流失的。要想停止這個(gè)死亡游戲,必須連夜派發(fā)入門教程大禮包!

但首先,你需要確定這個(gè)原因是正確的。根據(jù)探索性數(shù)據(jù)分析,你現(xiàn)在可以建立一個(gè)新的預(yù)測(cè)模型,以比較收到教程和沒(méi)收到教程的差異率。 這根植于驗(yàn)證性數(shù)據(jù)分析。

結(jié)果顯示了兩者之間的廣泛相關(guān)性。成功破案了!

探索性數(shù)據(jù)分析和大數(shù)據(jù)

21世紀(jì)的作案團(tuán)伙可以像水滴融入大海一樣藏身于龐大的數(shù)據(jù)池中。整個(gè)偵探游戲變得非常艱巨。要保證自己能夠?qū)崟r(shí)訪問(wèn)所有需要的信息,讓數(shù)據(jù)跑得跟思路一樣快,讓案子破的時(shí)候“兇手”還沒(méi)跑遠(yuǎn)——這對(duì)于銷售、運(yùn)營(yíng)、產(chǎn)品、財(cái)務(wù)、HR等各種工作模塊都至關(guān)重要。

為什么偵探小說(shuō)這么火?

因?yàn)槲覀兌夹枰来鸢?,并?duì)探索答案過(guò)程中的智力挑戰(zhàn)而感到驚心動(dòng)魄。

那為什么,不讓數(shù)據(jù)偵探成為你的“第二人格”?

 

本文由 @數(shù)據(jù)觀 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自《東方快車謀殺案》劇照,來(lái)源于百度派

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!