如何七周成為數(shù)據(jù)分析師15:讀了本文,你就懂了概率分布

4 評(píng)論 21674 瀏覽 77 收藏 18 分鐘

本文是《如何七周成為數(shù)據(jù)分析師》的第十五篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經(jīng)熟悉概率分布,大可不必再看這篇文章,或只挑選部分。

我們已經(jīng)了解概率的基礎(chǔ),概率中通常將試驗(yàn)的結(jié)果稱為隨機(jī)變量。隨機(jī)變量將每一個(gè)可能出現(xiàn)的試驗(yàn)結(jié)果賦予了一個(gè)數(shù)值,包含離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。

擲硬幣就是一個(gè)典型的離散型隨機(jī)變量,離散隨機(jī)變量可以取無(wú)限個(gè)但可數(shù)的數(shù)值。而連續(xù)變量相反,它在某一個(gè)區(qū)間內(nèi)能取任意的數(shù)值。時(shí)間就是一個(gè)典型的連續(xù)變量,1.25分鐘、1.251分鐘,1.2512分鐘,它能無(wú)限分割。

既然隨機(jī)變量可以取不同的值,統(tǒng)計(jì)學(xué)家就用概率分布描述隨機(jī)變量取不同值的概率。相對(duì)應(yīng)的,有離散型概率分布和連續(xù)型概率分布。

對(duì)于離散型隨機(jī)變量x,定義一個(gè)概率函數(shù)叫f(x),它給出了隨機(jī)變量取每一個(gè)值的概率。

拿出一個(gè)骰子,擲到6的概率是f(6) = 1/6,擲到1和6的概率則是f(1)+f(6) = 1/3。

數(shù)學(xué)期望和方差

現(xiàn)在有一個(gè)運(yùn)營(yíng)活動(dòng),兩套抽獎(jiǎng)概率方案,如下:

作為運(yùn)營(yíng)人員,應(yīng)該怎么衡量?jī)煞N抽獎(jiǎng)方法的好壞呢?

數(shù)學(xué)期望是對(duì)隨機(jī)變量中心位置的一種度量。是試驗(yàn)中每次可能結(jié)果的乘以其結(jié)果的總和。簡(jiǎn)單說(shuō),它是概率中的平均值,可以用期望對(duì)比兩套方案。

假設(shè)一等獎(jiǎng)成本1000元,二等獎(jiǎng)成本500元,三等獎(jiǎng)成本100元,歡迎下次再來(lái)當(dāng)然沒錢,而用戶參加一次抽獎(jiǎng)需要5元。我們將概率問(wèn)題轉(zhuǎn)換成運(yùn)營(yíng)方的收益和成本計(jì)算期望(下面的盈虧是公司角度的)。

于是E(x) = (-990*5%)+(-490*10%)+(-90*20%)+(10*65%) = -110。也就是說(shuō),A方案能夠期望每次抽獎(jiǎng)運(yùn)營(yíng)方虧損110元。計(jì)算一下B方案,則是虧損150元。如果從用戶的角度看,每一次抽獎(jiǎng)的期望則反過(guò)來(lái),即一等獎(jiǎng)能受益990元,二等獎(jiǎng)能受益490元…A方案玩一次平均收益110元。

想必大家已經(jīng)知道了如何設(shè)計(jì)活動(dòng)的盈虧?rùn)C(jī)制,感興趣可以自行調(diào)節(jié)中獎(jiǎng)概率和成本。

期望值衡量概率的平均值,可是抽獎(jiǎng)本來(lái)就是很激動(dòng)人心的事情,哪怕明知道會(huì)賠錢,人們還樂此不疲,為什么?因?yàn)轱L(fēng)險(xiǎn),因?yàn)橐孕〔蟆?/p>

方差就是這種風(fēng)險(xiǎn)的度量,即隨機(jī)變量的變異性。它和描述統(tǒng)計(jì)學(xué)的方差是一個(gè)含義。

方差越大,隨機(jī)變量的結(jié)果越不穩(wěn)定,計(jì)算A方案的方差如下:

方差最后為62600,說(shuō)明期望的波動(dòng)很大。標(biāo)準(zhǔn)差為sqrt(62600) = 250.19,代表每一次的抽獎(jiǎng),與期望收益-110的距離是250.19元。

到這里,概率和期望方差的基本玩法已經(jīng)講完了。

二項(xiàng)概率分布

二項(xiàng)分布是一種離散型的概率分布。故明思義,二項(xiàng)代表它有兩種可能的結(jié)果,把一種稱為成功,另外一種稱為失敗。

除了結(jié)果的規(guī)定,它還需要滿足其他性質(zhì):每次試驗(yàn)成功的概率均是相同的,記錄為p;失敗的概率也相同,為1-p。每次試驗(yàn)必須相互獨(dú)立,該試驗(yàn)也叫做伯努利試驗(yàn),重復(fù)n次即二項(xiàng)概率。

擲硬幣就是一個(gè)典型的二項(xiàng)分布。當(dāng)我們要計(jì)算拋硬幣n次,恰巧有x次正面朝上的概率,可以使用二項(xiàng)分布的公式:

假設(shè)拋硬幣5次,恰巧有3次正面朝上,則其概率為31.25%??梢允褂肊xcel中的BINOM.DIST函數(shù)計(jì)算。

不妨把題目變化一下,變成計(jì)算硬幣至少有三次正面朝上的概率是多少?有一種簡(jiǎn)單的方法是累加,將恰巧有3次,恰巧有4次,恰巧有5次的概率相加,結(jié)果便是至少3次,為50%。

回到運(yùn)營(yíng)活動(dòng)的例子,上面一個(gè)運(yùn)營(yíng)活動(dòng)公司虧慘了,現(xiàn)在運(yùn)營(yíng)需要重新做一個(gè)抽獎(jiǎng)活動(dòng),每位用戶擁有10次抽獎(jiǎng)機(jī)會(huì),中獎(jiǎng)概率是5%。老板準(zhǔn)備先考慮成本問(wèn)題,想知道至少有3次以上中獎(jiǎng)機(jī)會(huì)的概率是多少?

按照上題的思路,可以拿恰巧3次,恰巧4次直到恰巧10次累加求和,但是這樣太麻煩了。此時(shí)可以換一個(gè)思路,先計(jì)算最多2次的概率是多少。那么便是f(0)+f(1)+f(2),結(jié)果是92.98%,利用概率公式1-92.98%,就是至少3次的概率了,為7.02%??磥?lái)老板還是能松口氣的。

二項(xiàng)概率的數(shù)學(xué)期望為E(x) = np,方差Var(x) = np(1-p)。抽獎(jiǎng)10次,那么抽獎(jiǎng)的期望值就是1,方差為0.9。

運(yùn)營(yíng)學(xué)會(huì)二項(xiàng)分布,在涉及概率的各種活動(dòng)中,將變得游刃有余。它的原理甚至能用到AB測(cè)試。大學(xué)考試中二項(xiàng)概率需要查專門的概率表計(jì)算,不過(guò)現(xiàn)在各類工具層出不窮,Python、R、Excel都能直接計(jì)算。

泊松概率分布

泊松概率是另外一個(gè)常用的離散型隨機(jī)變量,它主要用于估計(jì)某事件在特定時(shí)間或空間中發(fā)生的次數(shù)。比如一天內(nèi)中獎(jiǎng)的個(gè)數(shù),一個(gè)月內(nèi)某機(jī)器損壞的次數(shù)等。

泊松概率的成立條件是在任意兩個(gè)長(zhǎng)度相等的區(qū)間中,時(shí)間發(fā)生的概率是相同的,并且事件是否發(fā)生都是相互獨(dú)立的。

泊松概率既然表示事件在一個(gè)區(qū)間發(fā)生的次數(shù),這里的次數(shù)就不會(huì)有上限,x取值可以無(wú)限大,只是可能性無(wú)限接近0,f(x)的最終值很小。

x代表發(fā)生x次,u代表發(fā)生次數(shù)的數(shù)學(xué)期望,概率函數(shù)為:

現(xiàn)在又舉辦了一個(gè)新的運(yùn)營(yíng)活動(dòng),這次的中獎(jiǎng)概率未知,只知24小時(shí)內(nèi)中獎(jiǎng)的平均個(gè)數(shù)為5個(gè),老板異想天開地想知道24小時(shí)內(nèi)恰巧中獎(jiǎng)次數(shù)為7的概率是多少?

此時(shí)x=7,u=5(區(qū)間內(nèi)發(fā)生的平均次數(shù)就是期望),代入公式求出概率為10.44%。Excel中的函數(shù)為POISSON.DIST。

接下來(lái)繼續(xù)加大問(wèn)題難度,求中獎(jiǎng)次數(shù)至少7次的概率。此時(shí)f(0)+f(1)+f(2)+f(3)+f(4)+f(5)+f(6)=86.66%,那么至少七次的概率為13.33%。

如果問(wèn)題變成12小時(shí)內(nèi)呢?老板希望知道12小時(shí)內(nèi)中獎(jiǎng)次數(shù)為3次的概率是多少?

24小時(shí)內(nèi)中獎(jiǎng)概率的期望數(shù)是5,那么12小時(shí)內(nèi)的中獎(jiǎng)概率期望數(shù)是2.5,于是令u=2.5,求出12小時(shí)內(nèi)中獎(jiǎng)次數(shù)為3的概率是79.99%。

泊松概率還有一個(gè)重要性質(zhì),它的數(shù)學(xué)期望和方差相等,所以上題的方差為2.5,標(biāo)準(zhǔn)差為根號(hào)2.5,即1.58。

正態(tài)分布

上述分布都是離散概率分布,當(dāng)隨機(jī)變量是連續(xù)型時(shí),情況就完全不一樣了。因?yàn)殡x散概率的本質(zhì)是求x取某個(gè)特定值的概率,而連續(xù)隨機(jī)變量不行,它的取值是可以無(wú)限分割的,它取某個(gè)值時(shí)概率近似于0。連續(xù)變量是隨機(jī)變量在某個(gè)區(qū)間內(nèi)取值的概率,此時(shí)的概率函數(shù)叫做概率密度函數(shù)。

正態(tài)概率分布是連續(xù)型隨機(jī)變量中最重要的分布。世界上絕大部分的分布都屬于正態(tài)分布,人的身高體重、考試成績(jī)、降雨量等都近似服從。

正態(tài)分布如同一條鐘形曲線。中間高,兩邊低,左右對(duì)稱。想象身高體重、考試成績(jī),是否都呈現(xiàn)這一類分布態(tài)勢(shì):大部分?jǐn)?shù)據(jù)集中在某處,小部分往兩端傾斜。

正態(tài)概率密度函數(shù)為:

是不是看得頭暈了?u代表均值,σ代表標(biāo)準(zhǔn)差,兩者不同的取值將會(huì)造成不同形狀的正態(tài)分布。均值表示正態(tài)分布的左右偏移,標(biāo)準(zhǔn)差決定曲線的寬度和平坦,標(biāo)準(zhǔn)差越大曲線越平坦。

以前介紹過(guò)一個(gè)正態(tài)分布的經(jīng)驗(yàn)法則:

正態(tài)隨機(jī)變量有69.3%的值在均值加減一個(gè)標(biāo)準(zhǔn)差的范圍內(nèi),95.4%的值在兩個(gè)標(biāo)準(zhǔn)差內(nèi),99.7%的值在三個(gè)標(biāo)準(zhǔn)差內(nèi)。這條經(jīng)驗(yàn)法則可以幫助我們快速計(jì)算數(shù)據(jù)的大體分布。

均值u=0,標(biāo)準(zhǔn)差σ=1的正態(tài)分布叫做標(biāo)準(zhǔn)正態(tài)分布。它的隨機(jī)變量用z表示,它是推斷統(tǒng)計(jì)的基礎(chǔ)。將均值和標(biāo)準(zhǔn)差代入正態(tài)概率密度函數(shù),得到一個(gè)簡(jiǎn)化的公式:

現(xiàn)在可以用簡(jiǎn)化的公式計(jì)算概率密度了。首先學(xué)習(xí)一個(gè)新的函數(shù)叫累計(jì)分布函數(shù),它是概率密度函數(shù)的積分。用P(X<=x)表示隨機(jī)變量小于或者等于某個(gè)數(shù)值的概率,F(xiàn)(x) = P(X<=x)。

曲線就是概率密度函數(shù),當(dāng)x取某個(gè)值時(shí),曲線上f(x)點(diǎn)的數(shù)值即表示隨機(jī)變量在對(duì)應(yīng)的x點(diǎn)值的取值概率,曲線與X軸相交的陰影面積就是累計(jì)分布函數(shù)。我們不妨把概率密度函數(shù)按其名字簡(jiǎn)單理解成「密度」,畢竟連續(xù)變量只有在區(qū)間中才有計(jì)算的意義,于是密度函數(shù)充當(dāng)了輔助計(jì)算的角色。分析中我們更多實(shí)用累計(jì)分布函數(shù)。

標(biāo)準(zhǔn)正態(tài)分布中,給定一個(gè)值z(mì),可以計(jì)算隨機(jī)變量z小于等于某一個(gè)值的概率;z在兩個(gè)值之間的概率;以及z大于等于一個(gè)值的概率。這三種計(jì)算都用到累計(jì)分布函數(shù),分別記作P(z<=x),P(x1<=z<=x2),P(z>=x)。

首先計(jì)算z小于等于1的概率,即P(z<=1)。由excel 的函數(shù)NORM.DIST(1,0,1,TRUE)求得值為0.8413。于是P(z<=1)=0.8413。同理,P(z>1) = 1-P(z<=1) = 0.1586。

若要計(jì)算z在區(qū)間-1~1.25的概率,即P(-1<=z<=1.25)??梢詫⑵洳鸾鉃楣剑篜(-1<=z<=1.25) = P(z<=1.25) – P(z<=-1) = 0.735。

如果大家在公式轉(zhuǎn)換中有困惑,不妨結(jié)合上面的陰影圖看。靠左的陰影即z小于等于0.8時(shí)(目測(cè))的概率,如果我們要算0~0.8之間的概率呢?就是把z<=0的那一半給挖掉,非常粗暴的算法。

到了這里大家可能發(fā)覺,在正態(tài)分布的計(jì)算中,不論求哪一類區(qū)間,我們都是先轉(zhuǎn)換成z小于等于某個(gè)值先計(jì)算。這是一個(gè)潛移默化的規(guī)則,因?yàn)樵缙谡龖B(tài)概率的計(jì)算都要用到標(biāo)準(zhǔn)正態(tài)概率表,它以z小于等于作查詢標(biāo)準(zhǔn)?,F(xiàn)在雖然計(jì)算資源已經(jīng)大大豐富,但是這個(gè)習(xí)慣還是保留了下來(lái)。

之所以強(qiáng)調(diào)標(biāo)準(zhǔn)正態(tài)分布,是因?yàn)樗械恼龖B(tài)分布概率都可以利用標(biāo)準(zhǔn)正態(tài)分布計(jì)算。當(dāng)我們具有一個(gè)任意均值的u和標(biāo)準(zhǔn)差σ,都能將其轉(zhuǎn)換成標(biāo)準(zhǔn)狀態(tài)分布。

現(xiàn)在有一個(gè)u=10和σ=2的正態(tài)隨機(jī)變量,求x在10與14之間的概率是多少?

當(dāng)x=10時(shí),z=(10-10)/2=2。當(dāng)x=14時(shí),z=(14-10)/2=2。于是x在10和14之間的概率等價(jià)于標(biāo)準(zhǔn)正態(tài)分布中0和2之間的概率。計(jì)算P(0<=z<=2) =P(z<=2) – P(z<=0) =0.4772。

現(xiàn)在是最后一個(gè)運(yùn)營(yíng)活動(dòng)了,不再是抽獎(jiǎng),而是最終贈(zèng)送獎(jiǎng)品的環(huán)節(jié)。已知獎(jiǎng)品的保質(zhì)期滿足正態(tài)分布,均值90天,標(biāo)準(zhǔn)差5天。為了考慮用戶體驗(yàn),想知道獎(jiǎng)品70天以內(nèi)就壞的概率是多少?

當(dāng)x=70時(shí),有z=(70-90)/5 = -4。p(z<=-4)=0.003%。概率非常小,可以忽略不計(jì),所以產(chǎn)品質(zhì)量杠杠的。經(jīng)歷了那么多活動(dòng),老板終于可以松一口氣了。

在概率分布中還有一個(gè)概念叫正態(tài)近似。當(dāng)試驗(yàn)次數(shù)很大時(shí),二項(xiàng)分布可以近似于正態(tài)分布,泊松分布也有相似的情況,大家有興趣可以去了解,這是一種簡(jiǎn)便方法,不過(guò)工作中現(xiàn)在都是計(jì)算機(jī)了,這點(diǎn)反而不重要了。

了解完各類分布后,我們將進(jìn)入最后的環(huán)節(jié),假設(shè)檢驗(yàn),它是基于概率的理論,數(shù)據(jù)分析中的AB測(cè)試,就是其最常見的應(yīng)用。

相關(guān)閱讀

互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,需一份七周的提綱

如何七周成為數(shù)據(jù)分析師01:常見的Excel函數(shù)全部涵蓋在這里了

如何七周成為數(shù)據(jù)分析師02:Excel技巧大揭秘

如何七周成為數(shù)據(jù)分析師03:手把手教你Excel實(shí)戰(zhàn)

如何七周成為數(shù)據(jù)分析師:Excel技巧之甘特圖繪制(項(xiàng)目管理)

如何七周成為數(shù)據(jù)分析師:Excel技巧之打造多級(jí)菜單

如何七周成為數(shù)據(jù)分析師04:數(shù)據(jù)可視化之經(jīng)典圖表合集

如何七周成為數(shù)據(jù)分析師05:數(shù)據(jù)可視化之打造升職加薪的報(bào)表

如何七周成為數(shù)據(jù)分析師06:數(shù)據(jù)可視化之手把手打造BI

如何七周成為數(shù)據(jù)分析師07:快速掌握麥肯錫的分析思維

如何七周成為數(shù)據(jù)分析師08:如何建立數(shù)據(jù)分析的思維框架?

如何七周成為數(shù)據(jù)分析師09:寫給新人的數(shù)據(jù)庫(kù)指南

如何七周成為數(shù)據(jù)分析師10:SQL,從入門到熟練

如何七周成為數(shù)據(jù)分析師11:SQL,從熟練到掌握

如何七周成為數(shù)據(jù)分析師12:解鎖數(shù)據(jù)分析的正確姿勢(shì)(上)

如何七周成為數(shù)據(jù)分析師13:解鎖數(shù)據(jù)分析的正確姿勢(shì)(下)

如何七周成為數(shù)據(jù)分析師14:概率論的入門指南

#專欄作家#

秦路,微信公眾號(hào)ID:tracykanc,人人都是產(chǎn)品經(jīng)理專欄作家。

本文由 @秦路?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 最多兩次中獎(jiǎng)的概率應(yīng)該是63.2%吧

    來(lái)自江蘇 回復(fù)
  2. 泊松分布那一段,“24小時(shí)內(nèi)中獎(jiǎng)概率的期望數(shù)是5,那么12小時(shí)內(nèi)的中獎(jiǎng)概率期望數(shù)是2.5,于是令u=2.5,求出12小時(shí)內(nèi)中獎(jiǎng)次數(shù)為3的概率是79.99%?!睂戝e(cuò)了。小于等于3次的概率是78.62%,大于等于3次是21.37%。謝謝。

    來(lái)自江蘇 回復(fù)
  3. 那個(gè)抽獎(jiǎng)時(shí)10元每次吧,文中寫了5元。

    來(lái)自廣東 回復(fù)
  4. 以前都是小學(xué)初中學(xué)的內(nèi)容,現(xiàn)在尼瑪居然看不懂了,我還是我么

    來(lái)自廣東 回復(fù)