A/B測試算法揭秘第二篇:如何分析試驗數(shù)據(jù)(上)

2 評論 17841 瀏覽 94 收藏 8 分鐘

希望通過我們的幾篇文章,能夠幫助你更好的了解A/B測試和置信區(qū)間,一起實現(xiàn)用A/B測試驅(qū)動產(chǎn)品優(yōu)化。

A/B測試的實質(zhì)是對照試驗,即通過對幾個不同的版本進行對比,從而選出最優(yōu)版本。在這個過程中,需要分析處理在試驗中收集到的數(shù)據(jù),并應(yīng)用統(tǒng)計學(xué)上的方法對數(shù)據(jù)進行驗證,看它是否符合我們最初的設(shè)計目標(biāo),或分析它的結(jié)果效應(yīng)如何。這一章我們就將跟大家談?wù)勥@種方法——假設(shè)檢驗。

假設(shè)檢驗的定義

假設(shè)檢驗是先對總體的參數(shù)提出某種假設(shè)(比如說轉(zhuǎn)化率的平均值),然后利用樣本數(shù)據(jù)判斷假設(shè)是否成立的過程。在邏輯上,假設(shè)檢驗采用了反證法,即先提出假設(shè),再通過適當(dāng)?shù)慕y(tǒng)計學(xué)方法來計算這個假設(shè)可能性的大小。

由于統(tǒng)計得出的結(jié)果來自于隨機樣本的數(shù)據(jù),結(jié)論不可能為絕對的,所以我們只能根據(jù)概率上的一些依據(jù)進行相關(guān)的判斷。這里依據(jù)的是小概率思想(即顯著性水平 p<0.05的小概率事件在一次試驗中基本上不會發(fā)生),也就是說當(dāng)原假設(shè)的可能性小于認(rèn)定的某一標(biāo)準(zhǔn)的話,則拒絕原假設(shè)(認(rèn)為這個假設(shè)是不成立的),反之則接受原假設(shè)。

具體到A/B測試?yán)锏募僭O(shè)檢驗,就是指假設(shè)試驗版本的總體參數(shù)(優(yōu)化指標(biāo)均值)等于對照版本的總體參數(shù),然后利用這兩個版本的樣本數(shù)據(jù)來判斷這個假設(shè)是否成立。

如果樣本數(shù)據(jù)拒絕原假設(shè),我們說檢驗的結(jié)果是顯著的;反之,我們則說結(jié)果是不顯著的。一項檢驗在統(tǒng)計上是“顯著的”,意思是指這樣的樣本數(shù)據(jù)不是偶然得到的,即不是抽樣的隨機波動造成的,而是由內(nèi)在的影響因素導(dǎo)致的。

假設(shè)檢驗的基本概念

為了更好地理解假設(shè)檢驗,我們在下面列出了一些與之有關(guān)的基本概念。

  • 統(tǒng)計假設(shè):是對總體參數(shù)(包括總體均值μ等)的具體數(shù)值所作的陳述。
  • 原假設(shè):是試驗者想收集證據(jù)予以反對的假設(shè),又稱“零假設(shè)”,記為H0;對比試驗中的原假設(shè)就是試驗版本的總體均值等于對照版本的總體均值。
  • 備擇假設(shè):也稱“研究假設(shè)”,是試驗者想收集證據(jù)予以支持的假設(shè),記為H1;對比試驗中的備擇假設(shè)就是試驗版本的總體均值不等于對照版本的總體均值。
  • 雙側(cè)檢驗與單側(cè)檢驗:如果備擇假設(shè)沒有特定的方向性,并含有符號“=?”,這樣的稱為雙側(cè)檢驗。如果備擇假設(shè)具有特定的方向性,并含有符號“>”或“<”的假設(shè)檢驗,稱為單側(cè)檢驗。

原假設(shè)和備擇假設(shè)是一個完備事件組,而且相互對立。在一項假設(shè)檢驗中,原假設(shè)和備擇假設(shè)必有一個成立,而且只有一個成立。在對比試驗中,因為我們試驗的目的是通過反證法證明試驗版本和對照版本有明顯的不同(提升),所以我們的原假設(shè)是試驗版本的總體均值等于對照版本的總體均值。

假設(shè)檢驗的兩類錯誤

假設(shè)檢驗中有兩類錯誤,需要我們在試驗過程中加以避免。

4dd051bba151b3273fb1711c31abb9d7_b

  • 第 I 類錯誤(棄真錯誤):原假設(shè)為真時拒絕原假設(shè);第 I 類錯誤的概率記為 α(alpha)。
  • 第 II 類錯誤(取偽錯誤):原假設(shè)為假時未拒絕原假設(shè)。第 II 類錯誤的概率記為 β(Beta)。

其中,α 是一個概率值,表示原假設(shè)為真時, 拒絕原假設(shè)的概率,也稱為抽樣分布的拒絕域。在這兩類錯誤中,相對更加嚴(yán)重的是第 I 類錯誤,為了盡量避免第一類錯誤的發(fā)生,α 的取值應(yīng)盡可能小。α 值由試驗者事先確定,常見的有 0.01,0.05和0.10 。對比試驗中使用的 α 值是 0.05(5%),這是顯著性檢驗中最常用的小概率標(biāo)準(zhǔn)值。

假設(shè)檢驗的決策標(biāo)準(zhǔn)

因為假設(shè)檢驗主要是通過觀察樣本結(jié)果,再計算總體假設(shè)的可能性,最后判斷出假設(shè)的正確與否。那么可能性的標(biāo)準(zhǔn)是什么呢?需要根據(jù)顯著性水平 P-Value 進行計算。

在這里簡要說明一下顯著性水平 p(p-value),是指在原假設(shè)為真的條件下,樣本數(shù)據(jù)拒絕原假設(shè)這樣一個事件發(fā)生的概率。例如,我們根據(jù)某次假設(shè)檢驗的樣本數(shù)據(jù)計算得出顯著性水平p=0.04;這個值意味著如果原假設(shè)為真,我們通過抽樣得到這樣一個樣本數(shù)據(jù)的可能性只有 4%。

那么,0.04 這個概率或者說顯著性水平到底是大還是小,夠不夠用來拒絕原假設(shè)呢?這就需要把 p 和我們采用的第 I 類錯誤的小概率標(biāo)準(zhǔn) α 來比較確定。假設(shè)檢驗的決策規(guī)則:

若 p ≤ α,那么拒絕原假設(shè);

若 p > α,那么不能拒絕原假設(shè)。

8f3a9a0d33181a91974fe7a609978709_b

如果 α 取 0.05 而 p = 0.04,說明如果原假設(shè)為真,則此次試驗發(fā)生了小概率事件。根據(jù)小概率事件不會發(fā)生的判斷依據(jù),我們可以反證認(rèn)為原假設(shè)不成立。

顯著性水平 p 的計算公式取決于假設(shè)檢驗的具體方式,在這里就不具體展開了。

關(guān)于假設(shè)檢驗的基礎(chǔ)知識就介紹到這里,在之后的內(nèi)容中,我們將分別對顯著性水平的P-Value、T檢驗等進行詳細的介紹。

 

作者:吆喝科技,微信公眾號(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 枯燥無味,隨便帶上個例子就能說明很多事情

    來自廣東 回復(fù)
  2. 測試用例

    來自河北 回復(fù)