機(jī)器學(xué)習(xí) | 貝葉斯算法及應(yīng)用

0 評(píng)論 6724 瀏覽 18 收藏 10 分鐘

樸素貝葉斯是基于“特征之間是獨(dú)立的”這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法。

基于條件概率的貝葉斯定律數(shù)學(xué)公式

樸素貝葉斯算法

定義

樸素貝葉斯(Naive Bayes,NB)是基于“特征之間是獨(dú)立的”這一樸素假設(shè),應(yīng)用貝葉斯定理的監(jiān)督學(xué)習(xí)算法,是一種分類(lèi)算法;

對(duì)應(yīng)給定的樣本X的特征向量x1,x2,……,xm;該樣本X的類(lèi)別y的概率可以由貝葉斯公式得到:

區(qū)別

KNN分類(lèi)算法和決策樹(shù)分類(lèi)算法最終都是預(yù)測(cè)出實(shí)例的確定的分類(lèi)結(jié)果,但是,有時(shí)候分類(lèi)器會(huì)產(chǎn)生錯(cuò)誤結(jié)果;而樸素貝葉斯分類(lèi)算法則是給出一個(gè)最優(yōu)的猜測(cè)結(jié)果,同時(shí)給出猜測(cè)的概率估計(jì)值。

推導(dǎo)

(1)特征屬性X之間是獨(dú)立的,所以得到

(2)優(yōu)化得

(3)因?yàn)榉帜笇?duì)于所有類(lèi)別為常數(shù),因?yàn)槲覀冎灰獙⒎肿幼畲蠡钥?。又因?yàn)楦魈卣鲗傩允菞l件獨(dú)立的,所以有

流程

  • 設(shè)x={a1,a2,……,am}為待分類(lèi)項(xiàng),其中a為x的一個(gè)特征屬性;
  • 類(lèi)別集合為C={y1,y2,……,yn};
  • 分別計(jì)算P(y1|x),P(y2|x),…….,P(yn|x)的值(貝葉斯公式)

高斯樸素貝葉斯

定義

Gaussian Naive Bayes是指當(dāng)特征屬性為連續(xù)值時(shí),而且分布服從高斯分布,那么在計(jì)算P(x|y)的時(shí)候可以直接使用高斯分布的概率公式,其他的與樸素貝葉斯一致

伯努利樸素貝葉斯

定義

Bernoulli Naive Bayes是指當(dāng)特征屬性為連續(xù)值時(shí),而且分布服從伯努利分布,? 那么在計(jì)算P(x|y)的時(shí)候可以直接使用伯努利分布的概率公式:

伯努利分布是一種離散分布,只有兩種可能的結(jié)果。1表示成功,出現(xiàn)的概率為p;? 0表示失敗,出現(xiàn)的概率為q=1-p;其中均值為E(x)=p,方差為Var(X)=p(1-p)

多項(xiàng)式樸素貝葉斯

定義

Multinomial Naive Bayes是指當(dāng)特征屬性服從多項(xiàng)分布(特征是離散的形式的時(shí)候),從而,對(duì)于每個(gè)類(lèi)別y,每個(gè)特征屬性都有一個(gè)對(duì)應(yīng)的參數(shù)? θy=(θy1,θy2,……,θyn),其中n為特征屬性的取值數(shù)目,那么P(xk=i|y)的概率為θyi。

舉例應(yīng)用

我們要解決的問(wèn)題是,網(wǎng)站上有人發(fā)布了一條新的采購(gòu)信息,采購(gòu)信息的四個(gè)特點(diǎn)是采購(gòu)產(chǎn)品沒(méi)有在詞庫(kù)中,沒(méi)有經(jīng)過(guò)手機(jī)號(hào)校驗(yàn),沒(méi)有詳情,非會(huì)員發(fā)布的,需要判斷此條采購(gòu)信息是否真實(shí)

準(zhǔn)備階段

確定特征屬性x={a1,a2, a3 ,a4}

a1? 發(fā)布的采購(gòu)信息產(chǎn)品詞是否在我們?cè)~庫(kù)中;

a2? 發(fā)布信息時(shí)是否對(duì)手機(jī)號(hào)進(jìn)行的短信驗(yàn)證碼的校驗(yàn);

a3 ?發(fā)布的采購(gòu)信息是否有詳情;

a4? 發(fā)布者是不是網(wǎng)站的會(huì)員;

確定類(lèi)別集合C={y1,y2 }

y1 線(xiàn)索為真實(shí)采購(gòu);

y2 線(xiàn)索為虛假采購(gòu);

獲取訓(xùn)練樣本

樣本數(shù)據(jù)如下:

訓(xùn)練階段

下面我將一個(gè)一個(gè)的進(jìn)行統(tǒng)計(jì)計(jì)算(在數(shù)據(jù)量很大的時(shí)候,根據(jù)中心極限定理,頻率是等于概率的):

(1)對(duì)每個(gè)類(lèi)別計(jì)算P(y)

1. P(y=真實(shí))=6/12(總樣本數(shù))=1/2

2. P(y=假)=6/12(總樣本數(shù))=1/2

(2)對(duì)每個(gè)特征屬性計(jì)算所有劃分的條件概率P(x | y?)

在真實(shí)條件下

針對(duì)特征有無(wú)產(chǎn)品詞計(jì)算條件概率:

P(x1=有產(chǎn)品詞 | y)=1/2

P(x1=沒(méi)有產(chǎn)品詞 | y)=1/2

針對(duì)特征是否經(jīng)過(guò)手機(jī)號(hào)校驗(yàn)計(jì)算條件概率:

P(x2=經(jīng)過(guò)校驗(yàn) | y)=5/6

P(x2=不經(jīng)過(guò)校驗(yàn) | y)=1/6

針對(duì)特征采購(gòu)詳情校驗(yàn)計(jì)算條件概率:

P(x3=有詳情 | y)=5/6

P(x3=無(wú)詳情 | y)=1/6

針對(duì)特征采購(gòu)詳情校驗(yàn)計(jì)算條件概率:

P(x4=會(huì)員 | y)=5/6

P(x4=非會(huì)員 | y)=1/6

在虛假條件下:

針對(duì)特征有無(wú)產(chǎn)品詞計(jì)算條件概率:

P(x1=有產(chǎn)品詞 | y)=2/3

P(x1=沒(méi)有產(chǎn)品詞 | y)=1/3

針對(duì)特征是否經(jīng)過(guò)手機(jī)號(hào)校驗(yàn)計(jì)算條件概率:

P(x2=經(jīng)過(guò)校驗(yàn) | y)=1/2

P(x2=不經(jīng)過(guò)校驗(yàn) | y)=1/2

針對(duì)特征采購(gòu)詳情校驗(yàn)計(jì)算條件概率:

P(x3=有詳情 | y)=0

P(x3=無(wú)詳情 | y)=1

針對(duì)特征采購(gòu)詳情校驗(yàn)計(jì)算條件概率:

P(x4=會(huì)員 | y)=1/3

P(x4=非會(huì)員 | y)=2/3

應(yīng)用階段

目前樣本X為(沒(méi)有在詞庫(kù)中,沒(méi)有經(jīng)過(guò)手機(jī)號(hào)校驗(yàn),沒(méi)有詳情,非會(huì)員發(fā)布)

(1)計(jì)算此條線(xiàn)索為真實(shí)的概率

P(xi | y=真實(shí))= P(x1=沒(méi)有產(chǎn)品詞 | y)* P(x2=不經(jīng)過(guò)校驗(yàn) | y)* P(x3=無(wú)詳情 | y)* P(x4=非會(huì)員 | y)

=1/2*1/6*1/6*1/6

P(y=真實(shí))= 1/2

(2)計(jì)算此條線(xiàn)索為虛假的概率

P(xi | y=虛假)= P(x1=無(wú)產(chǎn)品詞 | y)* P(x2=不經(jīng)過(guò)校驗(yàn) | y)* P(x3=無(wú)詳情 | y)* P(x4=非會(huì)員 | y)

P(y=虛假)= 1/2

(3)比較P(y =虛假|(zhì) x1 , x2 , x3 , x4 )與P(y =真實(shí)| x1 , x2 , x3 , x4 )大小,選擇最大項(xiàng)作為X所屬分類(lèi),此條線(xiàn)索為虛假

優(yōu)缺點(diǎn)

優(yōu)點(diǎn):算法邏輯簡(jiǎn)單,易于實(shí)現(xiàn);

缺點(diǎn):如果特征屬性之間相關(guān)性較大時(shí),分類(lèi)效果不好。

本文由 @SincerityY 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!