使用student’s T檢驗(yàn)的未必是學(xué)生
產(chǎn)品經(jīng)理在面臨方案選擇時,往往會面臨多個方案選擇的情況。面對這種情況,最好的辦法是選擇一個相同的。為了確保公平性,我們常常會用到T檢驗(yàn)和方差檢驗(yàn)。本文分享了相關(guān)方法在網(wǎng)站分析中的應(yīng)用,希望對你有所幫助。
前言
一直想整理一下統(tǒng)計方法在網(wǎng)站分析中的應(yīng)用,剛好前幾天遇到類似的問題,借這個機(jī)會整理一下網(wǎng)站分析中T檢驗(yàn)的思路。在統(tǒng)計面前我們并沒有生產(chǎn)方法,我們只是方法的搬運(yùn)工,希望能用的恰到好處而已。T檢驗(yàn)全稱為student’s T檢驗(yàn),是由19世紀(jì)末的一位釀酒師戈塞特推導(dǎo)出的小樣本統(tǒng)計方法,因其發(fā)表研究成果時用的筆名為“學(xué)生”,這一方法被稱作是student’sT檢驗(yàn),雖有其名,但使用者卻未必是學(xué)生。
產(chǎn)品經(jīng)理在進(jìn)行產(chǎn)品方案選擇時,往往會面臨多個方案選擇的情況,面對這樣的問題,最簡單直接的方法是找一個相同的。
指標(biāo),分別在多個方案上進(jìn)行計算,查看計算結(jié)果的差異,這一方式固然是最為簡單的,但是引發(fā)的弊端也非常的明顯,比如:測試往往會針對不同的人群、不同的數(shù)據(jù)量,這些因子會對計算的結(jié)果產(chǎn)生影響,但是在上面單純指標(biāo)的計算中,卻并沒有將其考慮在內(nèi),導(dǎo)致計算結(jié)果并不公正。
為解決上面的問題,大家開始使用統(tǒng)計學(xué)中的T檢驗(yàn)來進(jìn)行結(jié)果計算,這一方法剝離了數(shù)據(jù)中的業(yè)務(wù)屬性,單純從統(tǒng)計的角度考慮兩組數(shù)據(jù)所對應(yīng)的方案的差異,能有效避免不同人群、不同數(shù)量集引發(fā)的計算差異。
T檢驗(yàn)的優(yōu)勢除了他自身的統(tǒng)計屬性外,還在于他的穩(wěn)定性,這一方法對數(shù)據(jù)的正態(tài)性有一定的耐受能力,當(dāng)數(shù)據(jù)不滿足正態(tài)時,可以采用一定的數(shù)據(jù)變換方式,將數(shù)據(jù)轉(zhuǎn)換成正態(tài),進(jìn)而使用這一方法進(jìn)行計算。
一、哪些場景下會用到T檢驗(yàn)和方差檢驗(yàn)
在產(chǎn)品設(shè)計中,能夠用到T檢驗(yàn)的地方非常多,我們最常見的就是A/B測試:在進(jìn)行網(wǎng)站功能優(yōu)化時,每個設(shè)計師或產(chǎn)品經(jīng)理會產(chǎn)生不同的設(shè)計思路,最終形成多個設(shè)計方案,那么問題來了,如果不能進(jìn)行公正的分析,用哪一個方案就成了一種風(fēng)險性決策。方案上線到APP上如果不能引發(fā)用戶的積極態(tài)度,不僅會影響產(chǎn)品的活躍度,更有可能影響產(chǎn)品進(jìn)一步的優(yōu)化。為公正起見,在A/B測試的場景中,經(jīng)常會看到T檢驗(yàn)的影子。
除了A/B測試外,T檢驗(yàn)還常被用在對網(wǎng)站進(jìn)行改版或推廣上,APP上線一個新的功能或者設(shè)計一個新的推廣活動,其效果是否會有明顯的不同,就需要進(jìn)行T檢驗(yàn)。此時往往會在不同時間段取兩組數(shù)據(jù),計算兩組相同的指標(biāo),對兩組指標(biāo)進(jìn)行對比。講一個相對專業(yè)一點(diǎn)的話語:這一方法實(shí)際上是在檢驗(yàn)一個二元分類變量是否對一個連續(xù)變量有明顯的影響。
另外,在運(yùn)營推廣活動中,優(yōu)惠券的設(shè)計是設(shè)計成“滿15減3”還是“滿15減5”?在頁面設(shè)計中,按鈕是設(shè)計在頁面頂部還是在頁面底部?在問卷調(diào)查中,題目是設(shè)計7個還是設(shè)計10個?這些實(shí)驗(yàn)性的、選擇性的方案中,往往都會有T檢驗(yàn)的身影。
總結(jié)可知,T檢驗(yàn)的應(yīng)用場景是在方案選擇中,而使用的范圍則可以總結(jié)為:
1)樣本來自的總體應(yīng)服從或近似服從正態(tài)分布;
2)兩樣本相互獨(dú)立,樣本數(shù)可以不等;
兩獨(dú)立樣本T檢驗(yàn)?zāi)康氖牵豪脕碜詢蓚€總體的獨(dú)立樣本,推斷兩個總體是否存在顯著差異。
二、T檢驗(yàn)和方差檢驗(yàn)的原理
T檢驗(yàn)在統(tǒng)計學(xué)中是與Z檢驗(yàn)、卡方檢驗(yàn)齊名的三大統(tǒng)計方法之一,在網(wǎng)站分析中得到廣泛的應(yīng)用,T檢驗(yàn)以假設(shè)檢驗(yàn)為分析基礎(chǔ),在假設(shè)成立的基礎(chǔ)上查看樣本數(shù)據(jù)對各種分布的滿足程度。
首先,我們來了解一下假設(shè)檢驗(yàn)方法:
假設(shè)檢驗(yàn)是用反證法來證明某一假設(shè)是否成立的方法,其思路為:
1)假定這個假設(shè)H0是成立的,并構(gòu)造出一個服從某一分布F(X)的統(tǒng)計量X(X~F(X));
2)計算服從分布F(X)的隨機(jī)變量x大于(或小于)統(tǒng)計量X的概率P{X<x}(或者P{X>x}),這一概率值記為p-value;
3)選定一個顯著性水平alpha,如果p-value<alpha,則認(rèn)為原來的假設(shè)H0不成立;如果p-value>alpha,則認(rèn)為原來的假設(shè)成立。
數(shù)據(jù)的語言總是很生硬的,因?yàn)槠鋰?yán)謹(jǐn)性要求他必須字斟句酌,但是我們在生活中卻需要一些聽得懂的表達(dá)來理解,我盡量用一些通俗的語言,幫助大家理解這一思路:
我們先來解釋一下顯著性水平表示的是什么,所謂的顯著性水平alpha是指一次實(shí)驗(yàn)中小概率事件發(fā)生的概率,統(tǒng)計中往往會假設(shè)小概率事件是不會發(fā)生的事件,所以小概率事件會被稱作是錯誤概率,例如:alpha=0.05即為小概率事件發(fā)生的概率界限為0.05,小于這一概率即為小概率事件(即為錯誤概率),大于這一概率則為非小概率事件(即為正確概率)。在假設(shè)檢驗(yàn)中常用的顯著水平取值有:
以A/B測試為例,假設(shè)A、B兩個方案無顯著差異,即H0成立(H0和H1的定義見如下解釋,指標(biāo)x往往是用均值來計算):理解完顯著性水平之后,我們就可以探索假設(shè)檢驗(yàn)了:
- H0:不同方案(統(tǒng)計中將其稱為不同的水平)中,指標(biāo)x沒有顯著性差異;
- H1:不同方案中,指標(biāo)x有顯著性差異;
我們假設(shè)H0成立,并依據(jù)樣本的數(shù)據(jù)構(gòu)造一個統(tǒng)計量X,根據(jù)假設(shè)這一統(tǒng)計量就會服從F(X)分布,則隨機(jī)產(chǎn)生的數(shù)據(jù)大概率會落到這一分布中,落在這一分布長尾中的數(shù)據(jù)相對較少,我們選擇顯著性水平為0.05,則長尾概率小于0.05的事件即為小概率事件,也即不可能發(fā)生的事件,這一事件發(fā)生時,我們推翻H0假設(shè),即H1成立,兩個方案有顯著性差異。
圖中陰影部位即為小概率發(fā)生事件的位置,也就是長尾發(fā)生的位置,在進(jìn)行假設(shè)檢驗(yàn)中往往存在兩個注意點(diǎn):一個是兩類錯誤(alpha錯誤和beta錯誤);另一個是單尾檢驗(yàn)和雙尾檢驗(yàn)(本文的T檢驗(yàn)是雙尾檢驗(yàn))。因?yàn)楸疚牡乃悸肥窍葮?gòu)建一個T檢驗(yàn)的基本思路,所以,這兩個注意點(diǎn)在本文中暫不做介紹。
在了解完假設(shè)檢驗(yàn)之后,我們的T檢驗(yàn)方法就呼之欲出了,下面我們介紹一下T檢驗(yàn)的思路:
1)建立檢驗(yàn)假設(shè)和確定檢驗(yàn)水準(zhǔn)。H0: μ=μ0,H1: μ≠μ0,α=0.05,雙側(cè)檢驗(yàn);
2)選定檢驗(yàn)方法和計算統(tǒng)計量。用單樣本的t檢驗(yàn);
在不同的前提下可以構(gòu)建不同的統(tǒng)計量,并且服從不同的分布狀態(tài),總前提是涉及檢驗(yàn)的兩組數(shù)據(jù)都服從正態(tài)分布。
本文中以正態(tài)分布為例進(jìn)行計算,在正態(tài)情況下,t值的計算公式為:
df=n-1
公式中的含義轉(zhuǎn)化成文字即為:t值=(兩個樣本殘差的均值-理想情況下殘差均值)/殘差標(biāo)準(zhǔn)差,計算殘差的情況下u0=0。
通過上面的公式可以計算出對應(yīng)的t值,以及自由度df。
三、確定P值和作出推斷結(jié)論
在確定好t值和自由度后,我們就需要確定對應(yīng)的P-value值,然后再以這個P-value值與顯著性水平alpha做比較,即可確定兩個方案是否是顯著性差異。
傳統(tǒng)的統(tǒng)計學(xué)中存在一個t分布表,記錄了t-p的轉(zhuǎn)化關(guān)系,主要思路是通過確定的自由度n和單尾顯著性水平alpha/2查找出對應(yīng)的標(biāo)準(zhǔn)t值,然后將運(yùn)算的t值與標(biāo)準(zhǔn)t值進(jìn)行比較,得出p-value值與alpha的關(guān)系。
P<alpha時拒絕原假設(shè),兩個方案存在顯著性差異。
感覺大家在看到這里的時候,對T檢驗(yàn)馬上就要失去信心了,一個方案選擇而已,又是t值,又是p值的,好不麻煩,臨了還給出一個t分布表,簡直要放棄掉;好在現(xiàn)在互聯(lián)網(wǎng)發(fā)展快速彌補(bǔ)了這一缺陷,將這一流程封裝成函數(shù),簡化了這一流程,我們只需要輸入兩個樣本數(shù)組,就可以得出兩個方案對應(yīng)的p-value值,直接將p-value與alpha進(jìn)行比較即可。
T檢驗(yàn)的應(yīng)用涉及面非常廣泛,自身也有其不足之處,比如面對三個或三個以上的方案選擇時,T檢驗(yàn)就失去了作用,此時可以借助方差檢驗(yàn),方差分析又會有單因素方差分析、單因素協(xié)方差分析、雙因素方差分析、含兩個協(xié)變量的雙因素協(xié)方差分析等多種方式,各種繁瑣,此處也只能是拋磚引玉,梳理出一個常用的思路而已,對于方差分析,我就不多做描述了。
四、網(wǎng)站頁面設(shè)計方案A/B分析
在做頁面設(shè)計時,對于按鈕在頂部還是底部進(jìn)行AB測試,通常希望獲知它對網(wǎng)站流量pv是否有顯著的影響。基于分析目的,我們獲取兩個方案各15天pv數(shù)據(jù):
1)在進(jìn)行使用這一數(shù)據(jù)進(jìn)行檢驗(yàn)時首先要驗(yàn)證數(shù)據(jù)的正態(tài)性,如果不符合正態(tài)特性,則需要將數(shù)據(jù)正態(tài)化之后再進(jìn)行檢驗(yàn)。
2)利用levene檢驗(yàn)兩個樣本的方差齊次性(方差齊次性可簡單理解為兩總體方差相等,有興趣可以百度深入了解):
如果返回結(jié)果的p值遠(yuǎn)大于0.05,那么我們認(rèn)為兩總體具有方差齊次性。
如果兩總體不具有方差齊性,需要加上參數(shù)equal_val并設(shè)定為False。
結(jié)論:
通過上面的運(yùn)算我們可以得出,兩個樣本具有方差齊次性,推廣前后兩個樣本的P-value=0.427,而alpha值對應(yīng)為0.05,因此P-value>alpha,兩個方案差異性不明顯。
專欄作家
野水晶體,微信公眾號:livandata,人人都是產(chǎn)品經(jīng)理專欄作家。金融行業(yè)的互聯(lián)網(wǎng)老兵,聚焦數(shù)據(jù)驅(qū)動,將算法、數(shù)據(jù)融入產(chǎn)品設(shè)計與運(yùn)營策略,構(gòu)建金融增長方法論。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!