如何七周成為數(shù)據(jù)分析師14:概率論的入門指南

5 評論 21653 瀏覽 56 收藏 14 分鐘

本文是《如何七周成為數(shù)據(jù)分析師》的第十四篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經(jīng)熟悉概率,大可不必再看這篇文章,或只挑選部分。

概率是度量一件事發(fā)生的可能性,它是介于0到1之間的數(shù)值。

我們拋一枚硬幣,它有正面朝上和反面朝上兩種結(jié)果,通常用樣本空間S表示,S={正面,反面}。

如果把硬幣拋兩次呢?它擁有四種結(jié)果,S={(正面,正面),(反面,反面),(正面,反面),(反面,正面)}。拋三次則是六種。

現(xiàn)實中的概率事件更復(fù)雜,比如六合彩,它會有多少種可能性?這時不能再像硬幣一樣心算了,要用到組合的知識。

組合和排列

組合是高中課本的內(nèi)容,當(dāng)需要從N個物體中選取n個物體,可以通過組合公式計算出可能的結(jié)果數(shù)量。

公式或許和大家印象中的有差異,因為中國國內(nèi)的數(shù)學(xué)教材以蘇聯(lián)為主,N和n的上下位置與歐美教材是相反的。我這里以歐美規(guī)范為主。

從五個顏色各異的小球中隨機抽取兩個時,將數(shù)值帶入到公式,得出答案為10種。

排列是組合的特殊情況,當(dāng)要考慮選取的順序時,相同的n個物體,因為不同的順序會有不同的結(jié)果,公式變?yōu)椋?/p>

依舊是五種顏色的小球,這時需要考慮選取的小球顏色先后次序,代入求出答案變?yōu)?0種。

在Excel的函數(shù)中,COMBIN和PERMUT函數(shù)分別對應(yīng)組合和排列。

事件及概率

前面我們已經(jīng)定義了樣本空間S,稱事件為樣本空間的一個子集,它是概率論的基礎(chǔ)。

硬幣正面朝上是一個事件,反面朝上也是一個事件。當(dāng)硬幣扔兩次時,也可以定義一個事件叫至少有一次正面朝上,此時事件為{(正面,正面),(正面,反面),(反面,正面)}。

單純的事件沒有意義,要結(jié)合概率來思考。比如至少有一次正面朝上,它由(正面,正面),(正面,反面),(反面,正面)三個事件求和得出,概率為75%。

通常,如果能確定一個試驗的所有樣本點并且能夠知曉每個樣本點的概率,那么我們就能求出事件的概率。

雖然大量的樣本點會造成計算的繁瑣,但是通過一些基本公式和定理能快速計算。

事件A的補指所有不屬于事件A的樣本點組成的事件。概率中有一個可視化技巧叫文氏圖/維恩圖。

事件的補可以定義為P(A-),有P(A-)+P(A)=1。針對拋兩次硬幣至少有一次朝上的概率為75%,它的補集為一次朝上都沒有,其概率為1-75%=25%。

概率的公式

事件的組合有兩個概念:并和交。事件A和B的并,可以用SQL中的Full join理解,即包含了事件A和事件B的所有樣本點。記作A∪B。

兩個圓形區(qū)域所在的部分就是事件A和B的并,其中重疊的部分說明有一些樣本點即屬于A又屬于B,它可以稱之為交,可以用SQL中的Inner Join理解。記作A∩B。

通過交和并,引申出概率中的加法公式:

P(A∪B) = P(A)+P(B) – P(A∩B)。P(A∪B) 是兩個圓形面積,P(A)是藍(lán)色圓面積,P(B)是橙色圓面積,當(dāng)兩者相加時,會多出一塊重疊區(qū)域,于是減去P(A∩B)進(jìn)行修正,得出正確的結(jié)果。

再來考慮事件中的一種特殊情況,互斥事件。事件A和事件B中,當(dāng)一個發(fā)生另外一個肯定不發(fā)生,則稱為互斥事件。此時,P(A∪B) = P(A)+P(B) 。

生活中很多概率處處相互關(guān)聯(lián)和影響。某個事件A發(fā)生的可能性受到另外一個事件B的影響,此時A發(fā)生的可能性叫做條件概率,記作P(A|B)。表明我們是在B條件已經(jīng)發(fā)生的條件下考慮A發(fā)生的可能性,統(tǒng)計學(xué)中稱為給定條件B下事件A的概率。

對于任何條件概率,存在:

這個公式依舊可以用文氏圖解釋。橙色圓表示事件B已經(jīng)發(fā)生,如果想要知道B已經(jīng)發(fā)生的情況下事件A發(fā)生的概率,則只能考慮橙色圓和藍(lán)色元的交集部分即P(A∩B)。此時P(A∩B) 除以P(B)即給定條件B下事件A發(fā)生的概率。

當(dāng)某一事件受另外事件的影響,我們稱其為條件概率。相反,某一事件完全不受另外事件的影響則為獨立事件。如果事件A和事件B相互獨立,則P(A|B)=P(A)。

互斥事件和獨立事件不是一回事,獨立事件是完全不相關(guān)的情況,而互斥是某一事件發(fā)生另外一個事件必然不發(fā)生,它們是相關(guān)的。

貝葉斯公式

條件概率既然是通過一個事件發(fā)生了來計算另外一件事發(fā)生的可能性,那么如何計算呢?不妨先看一個經(jīng)典案例。

如果某種疾病的發(fā)病率為千分之一?,F(xiàn)在有一種試紙,它在患者得病的情況下,有99%的準(zhǔn)確率判斷患者得病,在患者沒有得病的情況下,有5%的可能誤判患者得病。現(xiàn)在試紙說一個患者得了病,那么患者真的得病的概率是多少?

在下意識的判斷中,我們可能認(rèn)為是50%左右的數(shù)據(jù),或者更高。然而實際并不是。

將求解策略轉(zhuǎn)換為樹形圖的方式。按照患病率為千分之一,將人群劃分成健康人群和患者,分別是99900個和100個。然后再根據(jù)試紙對不同人群的概率求解。

最終健康人群中誤測出有病的是4995個,而真正患者中測出來是99個。所以當(dāng)遇到一個患者被測出來有病,實際上真正得病的概率是99/(4995+99)=1.9%。

這個概率非常低,試紙絕大部分的判斷都是誤診,它產(chǎn)生的原因在于患病率千分之一這個前提條件。在統(tǒng)計學(xué)中把它稱為先驗概率,即事件發(fā)生的因,根據(jù)先驗概率的變化,得到所謂的后驗概率,即事件發(fā)生的果,貝葉斯定理就是其中的一種計算方法。數(shù)據(jù)推導(dǎo)過程大家有興趣可以自行查閱,都是基礎(chǔ)上文公式的簡單應(yīng)用

P(A1)代表是真實患者的概率,P(A2)代表是健康人群的概率,P(B)代表試紙查出患者的概率。于是得出:

P(B|A1)為真實患者條件下試紙查出患者的概率,即99%。

P(B|A2)為健康人群條件下試紙誤判為患者的概率,即5%。

P(A1)為真實患病率千分之一,P(A2)為健康率千分之九九九。

P(A1|B)是在B發(fā)生的情況下A發(fā)生的可能性。應(yīng)用在上文的例子中,就是試紙查出其為患者的情況下,他是真的患者的概率。將數(shù)字都代入公式計算。

和我們用樹形圖計算出的答案一樣。不妨思考一下,如果試紙獲得了改進(jìn),對真實患者的判斷準(zhǔn)確率優(yōu)化到99.9%,對健康人群的誤判率降低到0.1%。此時P(A1|B)為多少?其實還是不到50%,大家有興趣可以計算一下。

上文列舉的公式是兩事件模型,當(dāng)先驗概率A是多個時,正式表達(dá)為:

貝葉斯在Excel中并沒有簡化的函數(shù),需要手動處理,新手可能對概念還是有些模糊,多做幾次練習(xí)就好了??梢越柚鷺湫螆D輔助判斷。

再來做一道練習(xí)題:中國五百位富豪,其中,讀過大學(xué)的只有30%,是否能說明讀書無用論?

并不能,因為它涉及了一個先驗概率即所有中國人中讀大學(xué)的比例,更準(zhǔn)確地說,是富豪們讀大學(xué)年代的讀大學(xué)比例。不妨大家自己查閱資料作出解答。

上文談及的都是理論,數(shù)據(jù)的應(yīng)用場景呢?比如拼寫檢查,我輸入了一個字典中沒有的英文單詞:thi,這時候機器就要猜測是the,還是this?這個問題就轉(zhuǎn)換成概率中的P(機器猜測的單詞 | thi ),當(dāng)單詞為thi時,機器所猜測的單詞準(zhǔn)確率是多少?

應(yīng)用貝葉斯公式轉(zhuǎn)換:P( this | thi ) = P( this )P( thi | this ),以及P( the | thi ) = P( the )P( thi | the )。因為分母是樣本空間常數(shù)所以可以略去,P( this )代表的是this這個單詞在全體文本中出現(xiàn)的概率,P( thi | this )代表的是this這個單詞打錯為thi的概率,結(jié)果為這兩個概率的乘積,以此類推。

P輸出的都是概率,假設(shè)計算后the的概率為80%,this的概率為75%,此時輸入法糾正就把the排在第一,this排在第二。

貝葉斯定理在數(shù)據(jù)分析中是一種常用的手段,除了對日常生活中違背經(jīng)驗主義的各種數(shù)據(jù)陷阱,它也能廣泛應(yīng)用在機器學(xué)習(xí)諸如郵件識別、文本分詞、拼寫檢查等場景中。

上半部分的內(nèi)容比較簡單,下半部分跨越大了些,而它又是不少機器學(xué)習(xí)的基礎(chǔ),大家配合其他資料加深學(xué)習(xí)。下一章講解概率中的離散和連續(xù)隨機變量。

相關(guān)閱讀

互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,需一份七周的提綱

如何七周成為數(shù)據(jù)分析師01:常見的Excel函數(shù)全部涵蓋在這里了

如何七周成為數(shù)據(jù)分析師02:Excel技巧大揭秘

如何七周成為數(shù)據(jù)分析師03:手把手教你Excel實戰(zhàn)

如何七周成為數(shù)據(jù)分析師:Excel技巧之甘特圖繪制(項目管理)

如何七周成為數(shù)據(jù)分析師:Excel技巧之打造多級菜單

如何七周成為數(shù)據(jù)分析師04:數(shù)據(jù)可視化之經(jīng)典圖表合集

如何七周成為數(shù)據(jù)分析師05:數(shù)據(jù)可視化之打造升職加薪的報表

如何七周成為數(shù)據(jù)分析師06:數(shù)據(jù)可視化之手把手打造BI

如何七周成為數(shù)據(jù)分析師07:快速掌握麥肯錫的分析思維

如何七周成為數(shù)據(jù)分析師08:如何建立數(shù)據(jù)分析的思維框架?

如何七周成為數(shù)據(jù)分析師09:寫給新人的數(shù)據(jù)庫指南

如何七周成為數(shù)據(jù)分析師10:SQL,從入門到熟練

如何七周成為數(shù)據(jù)分析師11:SQL,從熟練到掌握

如何七周成為數(shù)據(jù)分析師12:解鎖數(shù)據(jù)分析的正確姿勢(上)

如何七周成為數(shù)據(jù)分析師13:解鎖數(shù)據(jù)分析的正確姿勢(下)

#專欄作家#

秦路,微信公眾號ID:tracykanc,人人都是產(chǎn)品經(jīng)理專欄作家。

本文由 @秦路?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 硬幣拋三次是八種吧

    回復(fù)
    1. 正解

      來自江蘇 回復(fù)
  2. 貝葉斯看著賊親切,都是之前大學(xué)里面學(xué)的

    回復(fù)
  3. 互斥事件里邊事件A和事件B是沒有相交的部分的 ??

    來自四川 回復(fù)
  4. 大學(xué)數(shù)理統(tǒng)計學(xué)過啊,看著好親切

    來自北京 回復(fù)