數(shù)據(jù)的比較分析(三):假設性檢驗在數(shù)據(jù)比較分析中的應用

1 評論 7416 瀏覽 28 收藏 7 分鐘

數(shù)據(jù)分析是一個不斷驗證的過程,本文將通過案例分析來帶領大家了解“假設性檢驗”的應用。

上兩節(jié)中我講到基于基準的對比,和基于不同版本之間的對比;可以訂閱我專欄看回我以前的文章。

這章節(jié)我要分享一下假設性檢驗在其中的一些應用,“假設性檢驗”的應用范圍確實非常之廣,現(xiàn)在最常用在一些AB測試當中,現(xiàn)在互聯(lián)網(wǎng)產(chǎn)品的AB測試很多時候都是在流量非常充足的情況下進行的,誤差幅度相對比較小,但是當在做用戶的可用性測試的時候,樣本的數(shù)量收到很多方面的因素限制的時候,我們就需要如何用有限的樣本來做數(shù)據(jù)的分析工作。

數(shù)據(jù)的分析其實就是一個不斷反復驗證的過程,“假設性檢驗”其實就是基于反正法來的;接下來我通過一個例子來慢慢深入講解“假設性檢驗”。

從一個案例說起

案例:一款原版本的CRM系統(tǒng),找14個用戶去測試使用,計算出該14個用戶平均任務時長是33秒,標準差是22秒;對該系統(tǒng)進行改版之后,另外選13個用戶去測試使用,計算出該13名用戶平均任務時長是18秒,標準差是10秒。

我們這個時候可以提出假設:新版本比原版本快15秒?

第一步:使用t檢驗的方法,先計算t值

第二步:通過t值去計算出p-value值

為了求得事實上并不構成實質差異的差異值有多大,我們在t表中查找2.3,來看2.3標準差上面和下面的區(qū)域百分比是多少。所需要的另外一個變量就是自由度,其值大概為樣本量大小減去2(13-2=11)。使用Excel公式=TDIST(2.3,11,2),我們得到0.04,也稱為p值。

第三步:對p-value值進行分析

p-value值為0.04表示差一步顯著的情況下,只有4%的差異會大于15秒。也就是說2.3個標準誤占了t分布中96%的面積(1-0.04)。換個說法,依照概率,在100次中,只有4次出現(xiàn)這種情況。

當然有可能的情況是兩個樣本取自的總體之間沒有差異(既均值差異為0),但是更有可能的是均值差異為5、10或15秒。按照慣例,當p-value值小于0.05時,有充足的證據(jù)說明差異并不是由概率造成的。換句話說,我們可以得出結論兩個版本的CRM系統(tǒng)存在顯著差異。

要記住,雖然統(tǒng)計的結論是其中一個CRM應用設計會更快,但是我們尚未完全證明它是更快的。我們只是說兩個觀察到的均值存在差異的樣本,其各自總體的均值差異為零(既觀察到的15秒的差異是由概率造成的)不太可能。

從假設性檢驗的邏輯去分析上述案例

均值檢驗得到的p-value值告訴我們的是兩個均值無差異的概率有多大。無差異的假設就是指零假設。p值針對的零假設的可信度。p值小說明零假設可信度低,不太可能為真。如果零假設不太可能為真,那意味著我們的研究假設為真——具體地說,是存在差異的。

在兩個CRM設計中,任務時長均值差異為15秒。我們已經(jīng)評估這么大的差異發(fā)生的概率只有4%,所以零假設為真的概率為4%。看上去似乎擇備假設——既我們的設計確存在顯著差異——為真的可能性更大。

使用零假設,只需要充足的證據(jù)(而非定義性的證明)來說明兩個均值直接差異為零食不太可能的 ,至少你可以證明一些差異的真實性。差異量的大小,當然也是重要的,對于任何的顯著性統(tǒng)計,你都需要計算差異的置信區(qū)間,來為實際的顯著性統(tǒng)計提供一個參考。

在《數(shù)據(jù)的比較分析(二)》中有相關的計算法方法,在這個例子中,95%的置信度是1.3到28.7秒。換句話說,我們有95%的信息說差異至少為1.3秒,也就是說任務時長的縮短量在輕微的4%(1.3/33)到跟容易引起注意的87%(28.7/33)之間。

假設性檢驗的兩類錯誤

類形一錯誤:我們可能會說兩者之間存在差異,而事實上并不存在。

類型二錯誤:我們得出的結論說兩者之間不存在差異,而事實上存在。

p-value值是告訴我們犯類型一錯位的概率,當見到p-value值等于0.05時,我們將其解讀為當實際差異為零時,得到一個這么大或者比其他更大的觀測差異的概率為5%

總結

產(chǎn)品的打磨也像是科學研究一樣,都是在不斷的假設、實驗、驗證,且不斷的推倒重來的過程,每一步都需要不斷去論證。

 

本文由 @平遙抒雪 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 通俗易懂,學習了

    來自北京 回復