AI產(chǎn)品經(jīng)理需要了解的概率論通識:4個概念3個問題

9 評論 8010 瀏覽 50 收藏 14 分鐘

筆者基于工作實踐,分享了非常實用的4個概率論概念和3個經(jīng)典的概率論問題,供大家參考學(xué)習(xí)。

我認為AI產(chǎn)品經(jīng)理應(yīng)該學(xué)一些概率知識,是否理解概率,直接決定一個人對AI智能的了解程度。

現(xiàn)階段的自然語音處理,圖像識別,等都已不是專家系統(tǒng),而是以數(shù)學(xué)為基礎(chǔ),以概率論為方法,以算法為模型的最優(yōu)解決方案。

下面就了解一下幾個概率論概念:

一、概率論概念

1. 隨機

有些事情是無緣無故地發(fā)生的(隨機事件是在隨機試驗中,可能出現(xiàn)也可能不出現(xiàn),而在大量重復(fù)試驗中具有某種規(guī)律性的事件叫做隨機事件),總會有人買彩票中獎,而這一期彩票中獎,跟他是不是好人,他在之前各期買過多少彩票,他是否關(guān)注中獎號碼的走勢,沒有任何關(guān)系。

理解隨機性,我們就知道很多事情發(fā)生就發(fā)生了,沒有太大可供解讀的意義。

2. 獨立隨機事件

有些事情是沒有因果關(guān)系的(事件A發(fā)生還是不發(fā)生,對事件B發(fā)生不發(fā)生不產(chǎn)生任何影響,兩個事件相互獨立),我們可以得到一個結(jié)論:獨立隨機事件的發(fā)生是沒有規(guī)律和不可預(yù)測的,這是一個非常重要的智慧。

你投三次骰子,三次不一樣和三次都一樣的概率是一樣的。

3. 數(shù)學(xué)期望

是試驗中每次可能結(jié)果的概率乘以其結(jié)果的總和,是最基本的數(shù)學(xué)特征之一。它反映隨機變量平均取值的大小。

例如甲乙兩個機器人猜拳,他們兩人獲勝的機率相等;

比賽規(guī)則是五局三勝(先勝3局者為贏家),不考慮平局(即每局必出勝負),?贏家可以獲得100元。前三局,甲勝了2局,乙勝了1局,這時中止了比賽,那么如何分配比較公平?

利用計算機的隨機種子模擬500次接下來2局的情況, 統(tǒng)計2人勝利的次數(shù)之比, 按照這個比率來分配100元。

甲輸?shù)艉髢删值目赡苄灾挥?1/2)×(1/2)=1/4,也就是說甲贏得最終勝利的概率為=3/4,甲有75%的期望獲得100元;則乙只25%的期望獲得100元。

甲乙雙方最終勝利的客觀期望分別為75%和25%,因此甲應(yīng)分得獎金的100*75%=75元,數(shù)學(xué)期望由此而來。

4. 大數(shù)定理

當我們大量重復(fù)某一相同的實驗的時候,其最后的實驗結(jié)果可能會穩(wěn)定在某一數(shù)值附近。

就像拋硬幣一樣,當我們不斷地拋,拋個上千次,甚至上萬次,我們會發(fā)現(xiàn),正面或者反面向上的次數(shù)都會接近一半。

大數(shù)法則反映了這世界的一個基本規(guī)律:在一個包含眾多個體的大群體中,由于偶然性而產(chǎn)生的個體差異,著眼在一個個的個體上看,是雜亂無章、毫無規(guī)律、難于預(yù)測的。

但由于大數(shù)法則的作用,整個群體卻能呈現(xiàn)某種穩(wěn)定的形態(tài)。賭場的莊家在規(guī)則上占有少許優(yōu)勢,玩的次數(shù)越多,這種優(yōu)勢越能顯現(xiàn)出來。

但是如果統(tǒng)計數(shù)據(jù)很少,就很容易出現(xiàn)特別不均勻的情況。這個現(xiàn)象被諾獎得主丹尼爾·卡尼曼戲稱為“小數(shù)定律”??崧f,如果我們不理解小數(shù)定律,就不能真正理解大數(shù)定律。

例如iPod最早推出“隨機播放”功能的時候,用戶發(fā)現(xiàn)有些歌曲會被重復(fù)播放,他們據(jù)此認為播放根本不隨機。蘋果公司只好放棄真正的隨機算法,用喬布斯本人的話說,就是改進以后的算法使播放“更不隨機以至于讓人感覺更隨機”。

二、經(jīng)典概率論問題

1. 三門問題

“假設(shè)你正在參加一個游戲節(jié)目,你被要求在三扇門中選擇一扇:其中一扇后面有一輛車;其余兩扇后面則是山羊。假設(shè)你選擇了一號門,然后知道后面是什么的主持人,開啟了另一個有山羊的三號門。然后他問你:‘你想選擇二號門嗎?’此時換門還是不換門?”

如果不交換,保持原狀的話,得汽車的概率是1/3。如果交換的話,是否能增加抽到汽車的概率呢?

答案是會。轉(zhuǎn)換選擇(交換)可以增加參賽者的機會,如果參賽者同意“換門”,他贏得汽車的概率從1/3增加到2/3。

錯誤的思維方式:當主持人打開一扇后面有羊的門之后,問題就變成了有兩扇門,一扇門里有汽車,一扇門里有羊,選擇任何一個門獲的汽車的概率必然是相同的,也就是1/2。

上面這種方式的問題就是,打開一扇門后,并不等價于在兩扇門里做選擇,而是你是否需要轉(zhuǎn)換。

人的直覺往往是不可信的,關(guān)于“換門”的獲獎率不是一個獨立事件,必須以第一次的選擇作為基礎(chǔ)。在概率學(xué)當中,這種情況叫做條件概率。

我們可以通過公式計算:

不換門的獲獎率 = (1/3 X 100%)+(1/3 X 0%)+(1/3 X 0%)=1/3

換門的獲獎率 = (1/3 X 0%)+(1/3 X 100%)+(1/3 X 100%)=2/3

如果我們在生活中遇到了類似的問題,例如開發(fā)新產(chǎn)品有3種選擇,我們確信有且只有一種選擇可以獲得成功。但是,我們完全無法判斷哪種更好,于是隨機選擇了一種。

還沒等我們開發(fā),另外一家倒霉蛋公司剛好開發(fā)了第二種產(chǎn)品,而且惡評如潮。此時我們果斷更換到第三種模式,會大大提高我們的成功率。

2. 生日悖論

假設(shè)你工作在一個23人的辦公室。那么,你辦公室中兩個人生日相同的幾率是多少呢?我們也許是這樣來思考,365天,遇到同一天生日的概率為1/365,或0.0027%!

那么,考慮一下這樣的問題,在一個房間里,至少有多少人,才能使其中兩個人的生日是同一天的可能性超過50%?

有人可能認為房間人數(shù)起碼得達到183,因為183是366的一半。但是我告訴你,兩個人的生日是同一天的可能性超過50%,只需要23個人。

把所有23個獨立概率相乘,即可得到所有人生日都不相同的概率為:(365/365)× (364/365) × … ×(343/365) ,得出結(jié)果為0.491。

那么,再用1減去0.497,就可以得到23個人中有至少兩個人生日相同的概率為0.509,即50.9%,超過一半的可能性。

按照這個算法,當人數(shù)達到 70 時,存在兩個人生日相同的概率就上升到了 99.9%,基本可以認為是 100% 了??墒侵庇X告訴我們不應(yīng)該啊,既然這么大的概率,我怎么就沒遇到與我生日相同的那個有緣人呢?

問題就在這里,我們問的是至少有兩個人生日相同,而不是與生日相同?。?!你這種想法是以自我為中心,而題目的概率是在描述整體。也就是說「存在」的含義是指 23 人中的任意兩個人,涉及排列組合,大概率和你這個個體沒啥關(guān)系。

如果你非要計算存在和自己生日相同的人的概率是多少,可以這樣計算:

1 – P(22 個人都和我的生日不同) = 1 -(364/365)^22 = 0.06

生日悖論告訴我們,人類的本質(zhì)是以自我為中心的,我們非常傾向于從自己的角度去看待和思考問題,太過自我就會扭曲事實。

有研究表明,小孩在一歲之前沒有形成自我意識,當你拿一把扇子給他看,一面畫著貓,一面畫著狗,你先給他看貓,再給他看狗,他會認為你看到的和他一樣,他看到的是什么,你就看到的是什么。

屁股決定腦袋,也是這個意思,當你選定立場時應(yīng)該非常小心。因為你所看到的都是基于你的立場。有一句話說的很好:你可以自由的表達觀點,但不要輕易選定立場。

3. 首位數(shù)字定律

統(tǒng)計一下世界上237個國家的人口數(shù)量,你覺得其中以1開頭的數(shù)會占多大比例,而以9開頭的數(shù)又占多大比例呢?如果你的回答是都為1/9,恭喜你你是正常人;

但是事實卻不是如此:以1開頭的數(shù)驚人的占到了27%,而以9開頭的數(shù)卻只占5%。為什么會相差這么大呢?這就是本福特定律在起作用。

本福特定律:以1為首位數(shù)字的數(shù)的出現(xiàn)機率約為總數(shù)的三成,接近期望值1/9的3倍,推廣來說,越大的數(shù)字,以它為首幾位的數(shù)出現(xiàn)的機率就越低;

本福德和紐康都從數(shù)據(jù)中總結(jié)出首位數(shù)字為n的概率公式是:

P(n)=logd(1+1/n)

其中d取決于數(shù)據(jù)使用的進位制,對十進制數(shù)據(jù)而言,d=10。

在十進制中,首位數(shù)字出現(xiàn)的概率為:

這個定律是一個非常神奇的定律,它的適用范圍異常的廣泛,幾乎所有日常生活中沒有人為規(guī)則的統(tǒng)計數(shù)據(jù)都滿足這個定律。

比如說世界各國人口數(shù)量、各國國土面積、賬本、物理化學(xué)常數(shù)、數(shù)學(xué)物理課本后面的答案、放射性半衰期等等數(shù)據(jù)居然都符合本福特定律。

在假賬中,數(shù)字5和6是最常見的開頭數(shù)字,而不是符合定律的數(shù)字1,這就表明偽造者試圖在賬目中間“隱藏”數(shù)據(jù)。

曾是美國最大的能源交易商、年營業(yè)收入達近千億美元、股票市值最高可達700多億美元、全球500強中排名第七的安然公司,2001年在事先沒有任何征兆的情況下突然宣布破產(chǎn);

事后人們發(fā)現(xiàn)安然公司在2001年度到2002年度所公布的每股盈利數(shù)字不符合“本福特定律”,這些數(shù)字的使用頻率與這一定律有較大的偏差,這證明了安然公司的高層領(lǐng)導(dǎo)確實改動過數(shù)據(jù)。

作為產(chǎn)品經(jīng)理,對數(shù)據(jù)的敏感性及基礎(chǔ)的判斷,可以幫助我們在工作中更快的完成任務(wù)。

三、總結(jié)

AI產(chǎn)品經(jīng)理要更理性,數(shù)學(xué)是鍛煉理性思維的最好的工具,了解并掌握基礎(chǔ)的概率論通識,能幫產(chǎn)品經(jīng)理更好的理解算法模型和處理日常的數(shù)據(jù)處理工作。

最后問你個問題,如果戰(zhàn)斗中炸彈在你身邊爆炸,你應(yīng)該迅速跳進那個彈坑,因為兩顆炸彈不大可能打到同一個地方。對嗎?

 

作者:老張,宜信集團保險事業(yè)部智能保險產(chǎn)品負責(zé)人,運營軍師聯(lián)盟創(chuàng)始人之一,《運營實戰(zhàn)手冊》作者之一。

本文由 @老張 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 不明白為什么是1/3和2/3,求指教

    來自廣東 回復(fù)
  2. 你投三次骰子,三次不一樣和三次都一樣的概率是一樣的。

    這個作者是不是沒有表達清楚。。。?

    來自廣東 回復(fù)
    1. 三次不一樣概率20/36,三次一樣是1/36,我也不知道作者是在想什么

      來自四川 回復(fù)
    2. 額,表述有問題,是投三次篩子,每次都是同一個數(shù),和每次是不同的數(shù)的概率是一樣的?;蛘哒f第一次是1,和第二次還是1的概率和第二次是2的概率是一樣的。每次和每次之間是獨立的。

      來自北京 回復(fù)
  3. 作者三門問題理解完全錯誤,后面舉例就看出來了,幾率上漲是因為主持人只能選擇沒有車的門,在影響概率變化,你后面產(chǎn)品3種選擇完全是隨機的都是1/3不會改變好不

    來自四川 回復(fù)
    1. 主持人必須選擇沒有車的門,如果開的是有車的,那就沒有問的意義了。因為換不換都是羊

      來自北京 回復(fù)
    2. 對啊,所以我覺得你下面這句不對“如果我們在生活中遇到了類似的問題,例如開發(fā)新產(chǎn)品有3種選擇,我們確信有且只有一種選擇可以獲得成功。但是,我們完全無法判斷哪種更好,于是隨機選擇了一種。

      還沒等我們開發(fā),另外一家倒霉蛋公司剛好開發(fā)了第二種產(chǎn)品,而且惡評如潮。此時我們果斷更換到第三種模式,會大大提高我們的成功率?!?/p>

      來自四川 回復(fù)
    3. 另外一家倒霉蛋公司剛好開發(fā)了第二種產(chǎn)品,而且惡評如潮,就是說這個是羊,前提是我們確信有且只有一種選擇可以獲得成功。所以這個時候換第三種嘍,不過這說的是理想狀態(tài)了。

      來自北京 回復(fù)
    4. 真的挺好玩兒的,很有啟發(fā)。但是你要這樣想,如果你一定會換的話,就相當于只要在一開始不選到車就好了,也就是三分之二的概率。但是產(chǎn)品的例子不同,理想狀態(tài)是你們倆同時挑選3個黑箱中1個,全部都是隨機的三分之一,只不過他比你先打開箱子看了結(jié)果,這個跟你什么時候開箱看結(jié)果完全沒有關(guān)系的。

      來自北京 回復(fù)