100種分析思維模型之:泊松分布

0 評(píng)論 1131 瀏覽 1 收藏 12 分鐘

本文作者介紹了分析思維模型:泊松分布。泊松分布是概率分布模型的一種,可以幫助我們選擇符合實(shí)際情況的概率分布去更好的預(yù)測(cè)未來。讓我們來學(xué)習(xí)一下吧~

你好,我是林驥。

在前面的 100 種分析思維模型系列文章中,曾經(jīng)介紹過正態(tài)分布、冪律分布,下面再介紹另外一種應(yīng)用廣泛的概率分布模型:泊松分布。

一、為什么學(xué)習(xí)泊松分布?

概率分布就像一個(gè)工具箱,泊松分布就是工具箱里的一種工具。當(dāng)我們研究一個(gè)現(xiàn)象的時(shí)候,不妨運(yùn)用假設(shè)思維,先大膽假設(shè)服從某種概率分布,然后再小心求證這個(gè)假設(shè),以便從工具箱中找適合的工具。

你只有選擇符合實(shí)際情況的概率分布,才能更好地預(yù)測(cè)未來,否則就有可能會(huì)出錯(cuò)。這就好比你在釘釘子的時(shí)候,選擇的工具最好是錘子,而不是菜刀,否則就容易傷到手。

學(xué)習(xí)泊松分布的原理和運(yùn)用方法,可以幫助我們從整體上把握隨機(jī)事件發(fā)生的規(guī)律,完善我們對(duì)隨機(jī)性的認(rèn)識(shí),以便做出更加準(zhǔn)確的預(yù)測(cè)和決策,特別是提高風(fēng)險(xiǎn)防范的意識(shí),更好地解決一些現(xiàn)實(shí)世界的問題。

比如,在購(gòu)買保險(xiǎn)的時(shí)候,很多人覺得小公司服務(wù)好,而且承諾同樣的賠償,于是選擇小的保險(xiǎn)公司,但事實(shí)上,萬一遇到需要大額索賠的時(shí)候,有些小的保險(xiǎn)公司是賠不出來的,其實(shí)就沒能真正起到保險(xiǎn)的作用。

在管理水平和效率差不多的情況下,保險(xiǎn)公司的規(guī)模越大,風(fēng)險(xiǎn)往往就越小。因此,運(yùn)用概率思維,我們應(yīng)該優(yōu)先考慮選擇大的保險(xiǎn)公司進(jìn)行投保,避免花冤枉錢。

二、什么是泊松分布?

泊松分布最初是由法國(guó)數(shù)學(xué)家西莫恩·德尼·泊松(Siméon-Denis Poisson)在 1838 年提出來的,用于描述小概率事件的分布規(guī)律,比如機(jī)器故障、自然災(zāi)害等,事件的發(fā)生是相互獨(dú)立的,且概率在時(shí)間或空間上是均勻分布的。

假設(shè)隨機(jī)事件發(fā)生的概率是 p,進(jìn)行 n 次獨(dú)立的試驗(yàn),發(fā)生 k 次的概率為:

100種分析思維模型之:泊松分布

這個(gè)公式看起來比較復(fù)雜,但是相當(dāng)優(yōu)美,而且用計(jì)算機(jī)算起來還是比較簡(jiǎn)單的。

其中 e 是自然常數(shù),約等于 2.718。k 為事件發(fā)生的次數(shù),等于 0, 1, 2 ……

其中 λ 是單位時(shí)間內(nèi)平均發(fā)生的次數(shù),當(dāng) n 很大而 p 很小時(shí),泊松分布可作為二項(xiàng)分布的近似,λ = n*p。

其中 ! 是數(shù)學(xué)中的階乘符號(hào),定義 0! = 1,n! = n*(n-1)!,以此類推。比如,3! = 3*2*1 = 6。

假設(shè)一臺(tái)機(jī)器平均每小時(shí)出故障的概率是 0.03%,如果想知道接下來 10000 小時(shí)發(fā)生故障的概率,那 λ 就等于 10000*0.03% = 3 次。

當(dāng) k = 0 時(shí),P(X = 0) 就代表接下來 10000 小時(shí)不發(fā)生故障的概率,運(yùn)用上面的計(jì)算公式,計(jì)算結(jié)果約等于 5%。也就是說,這臺(tái)機(jī)器在 10000 小時(shí)內(nèi)至少發(fā)生 1 次故障的概率高達(dá) 95%。

有些機(jī)器一旦發(fā)生故障,可能事關(guān)重大,甚至涉及生命安全。比如,在高速上行駛的汽車,剎車系統(tǒng)一旦失靈,就有可能造成嚴(yán)重的交通事故。

不怕一萬,就怕萬一。所以,對(duì)于一些非常重要的機(jī)器,務(wù)必要定期進(jìn)行檢查,提前預(yù)防意外事件的發(fā)生。

三、怎么運(yùn)用泊松分布?

為了簡(jiǎn)化計(jì)算的過程,我們可以借助 GPT 來計(jì)算泊松分布的概率,給 ChatGPT 發(fā)送以下指令:

對(duì)于泊松分布,假設(shè)隨機(jī)事件發(fā)生的概率是 0.03%,進(jìn)行 10000 次獨(dú)立的試驗(yàn),至少發(fā)生 1 次的概率是多少?

100種分析思維模型之:泊松分布

考慮到 GPT 不擅長(zhǎng)數(shù)學(xué)計(jì)算,所以我接著讓它寫一段 Python 代碼來實(shí)現(xiàn)快速計(jì)算,并檢驗(yàn)上面回答的正確性。

100種分析思維模型之:泊松分布

運(yùn)用上面的 Python 代碼,得到的結(jié)果確實(shí)是 0.9502,即 95.02%,驗(yàn)證了 ChatGPT 回答的正確性。

有了 Python 代碼之后,我們還可以舉一反三,修改事件發(fā)生的概率和獨(dú)立試驗(yàn)的次數(shù),這樣就能快速計(jì)算不同條件下的概率分布。

為了更加清晰地展現(xiàn)泊松分布的變化,我們繼續(xù)讓 GPT 用 Python 繪制概率分布的曲線,稍加修改之后的代碼如下:

import numpy as np
import matplotlib.pyplot as plt
from scipy.special import factorial

# 設(shè)置中文顯示字體
plt.rcParams[‘font.sans-serif’] = [‘SimHei’]

# 定義泊松分布的概率質(zhì)量函數(shù)
def poisson_pmf(k, lamb):
return (lamb**k * np.exp(-lamb)) / factorial(k)

# 定義參數(shù)
p = 0.0003 # 事件發(fā)生的概率
n = 10000 # 獨(dú)立試驗(yàn)的次數(shù)
lamb = n * p

# 生成 x 坐標(biāo)軸的取值范圍
x = np.arange(0, 11)

# 計(jì)算對(duì)應(yīng)的泊松分布的概率質(zhì)量函數(shù)值
pmf = poisson_pmf(x, lamb)

# 放大圖表
plt.figure(figsize=(12, 6))

# 繪制概率分布曲線
plt.plot(x, pmf)
plt.xlabel(‘次數(shù)’, fontdict={‘fontsize’: 16})
plt.ylabel(‘概率’, fontdict={‘fontsize’: 16})
plt.title(“進(jìn)行 %d 次獨(dú)立試驗(yàn)的概率分布” % n, fontdict={‘fontsize’: 20})
plt.grid(True)

# 調(diào)整刻度數(shù)字的字體大小
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)

plt.show()

修改其中的 n 值,運(yùn)行得到不同的概率分布曲線,從圖中可以看出,隨著試驗(yàn)次數(shù)的增加,泊松分布曲線越來越接近于正態(tài)分布曲線。

100種分析思維模型之:泊松分布

100種分析思維模型之:泊松分布

100種分析思維模型之:泊松分布

泊松分布特別適用于預(yù)測(cè)事件發(fā)生的概率。比如,通過對(duì)歷史數(shù)據(jù)進(jìn)行分析,我們可以預(yù)測(cè)某個(gè)時(shí)間段內(nèi)到達(dá)某個(gè)地點(diǎn)的乘客數(shù)量,也可以檢驗(yàn)?zāi)硞€(gè)機(jī)器的故障率是否符合預(yù)期,還可以估計(jì)某個(gè)地區(qū)在特定時(shí)間內(nèi)發(fā)生車輛事故的概率,從而為保險(xiǎn)費(fèi)率的制定提供依據(jù)。

四、最后的話

在泊松分布出現(xiàn)之前,概率論與數(shù)理統(tǒng)計(jì)其實(shí)是兩個(gè)互不相關(guān)的學(xué)科。概率論主要研究未發(fā)生的隨機(jī)事件,也就是根據(jù)已知的模型和參數(shù),預(yù)測(cè)未來的數(shù)據(jù);而數(shù)理統(tǒng)計(jì)則主要是用來描述已經(jīng)發(fā)生的現(xiàn)實(shí)。

自從泊松分布出現(xiàn)之后,概率論與數(shù)理統(tǒng)計(jì)產(chǎn)生了緊密的聯(lián)系,這讓統(tǒng)計(jì)學(xué)變得更加強(qiáng)大,我們可以根據(jù)已知的數(shù)據(jù),去推測(cè)未知的世界,還原世界本來的樣子,而且可以被驗(yàn)證。

很多人判定一件事發(fā)生的概率總是存在很大的誤差,導(dǎo)致決策失誤,損失慘重,其中一個(gè)重要的原因就是靠直覺,而不是靠嚴(yán)密的數(shù)學(xué)邏輯和推導(dǎo)。

通過學(xué)習(xí)和運(yùn)用泊松分布,我們可以改變看待世界的方式,改變自己做決策的方式,甚至改變自己的心性,用更加理性的思維去解決問題。

比如,由于世界的不確定性和隨機(jī)事件的存在,我們?cè)跍?zhǔn)備資源時(shí),只達(dá)到平均值是遠(yuǎn)遠(yuǎn)不夠的,還需要準(zhǔn)備一些冗余量。如果一個(gè)人忙得沒有時(shí)間進(jìn)行思考和休息,就難以擺脫「窮忙」的狀態(tài)。

在《稀缺》這本書中,作者指出,當(dāng)一個(gè)人處于稀缺的狀態(tài)時(shí),會(huì)產(chǎn)生很多危害,包括:認(rèn)知能力下降、只關(guān)注眼前緊急的事、忽視真正重要的事、透支未來的資源、做出錯(cuò)誤的決策、陷入惡性的循環(huán)等。

記?。悍彩露家浀媒o自己留有余地,因?yàn)樯钪须y免會(huì)發(fā)生一些意外的隨機(jī)事件。只有預(yù)留一定的機(jī)動(dòng)時(shí)間,才能避免打亂正常的生活節(jié)奏,讓自己的生活多一份從容。就好比在開車的時(shí)候,與前車保持一定的距離,這樣才能更加安全地到達(dá)目的地。

總之,泊松分布是一種重要的概率分布模型,具有廣泛的應(yīng)用領(lǐng)域。通過學(xué)習(xí)和運(yùn)用泊松分布,我們可以更好地理解和分析隨機(jī)事件發(fā)生的規(guī)律,并用來預(yù)測(cè)未來發(fā)生的概率,進(jìn)而幫助我們更好地用數(shù)據(jù)化解難題,讓分析更加有效。

公眾號(hào):林驥,《數(shù)據(jù)化分析》作者

本文由 @林驥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!