你的數(shù)據(jù)結(jié)果是真實(shí)差異還是誤差?

1 評論 5812 瀏覽 7 收藏 11 分鐘

編輯導(dǎo)語:當(dāng)面臨數(shù)據(jù)存在差異性的情況時(shí),我們需要檢驗(yàn)數(shù)據(jù)差異是由什么原因?qū)е?,是否存在真?shí)差異。而假設(shè)檢驗(yàn)可以通過樣本檢驗(yàn)總體是否存在顯著性差異。本篇文章里,作者結(jié)合實(shí)際案例,介紹了幾種常用的假設(shè)檢驗(yàn)方法,幫助你檢驗(yàn)數(shù)據(jù)結(jié)果是真實(shí)差異還是誤差。

一、背景

當(dāng)面臨一組數(shù)據(jù)時(shí),我們很容易發(fā)現(xiàn)其中的差異性,比如A方案與B方案的日活用戶有差,留存率有差,付費(fèi)用戶數(shù)量也有差等等。

但是這些表面上的差異可能僅僅是由這一次抽樣誤差引起,并不是兩者確實(shí)存在差異。為此統(tǒng)計(jì)學(xué)上有針對不同情況下的檢驗(yàn)方法,稱為假設(shè)檢驗(yàn)。

本文以抖音為例,簡單介紹3種較常用到的假設(shè)檢驗(yàn)方法:方差分析、獨(dú)立樣本t檢驗(yàn)、相關(guān)系數(shù)的顯著性檢驗(yàn)以及它們在SPSS中的實(shí)現(xiàn)。數(shù)據(jù)選取抖查查平臺(tái)顯示的截止8月21日抖音粉絲數(shù)量前300里去除明星、政務(wù)類等達(dá)人的數(shù)據(jù)(存在極端值)進(jìn)行分析。

二、概念介紹

通過樣本檢驗(yàn)總體是否存在顯著性差異的方法叫假設(shè)檢驗(yàn)。假設(shè)檢驗(yàn)中存在兩個(gè)相互對立、二者擇一的假設(shè),一種叫虛無假設(shè)H0,另一種叫備擇假設(shè)H1。

假設(shè)檢驗(yàn)其實(shí)是一種反證法,我們想要得到的結(jié)果是A和B兩種方案有差異,首先需要假設(shè)兩者沒有差異,通過推翻這種假設(shè)來證明兩者有差異。

H0就表示兩者間的差異僅是抽樣誤差,H1表示兩者間確有差異,通過拒絕H0來證明H1是正確的,就完成了假設(shè)檢驗(yàn)。根據(jù)統(tǒng)計(jì)學(xué)上的小概率原理,當(dāng)某事件在一次試驗(yàn)中發(fā)生的概率(p)低于5%時(shí),就稱此事件為小概率事件,認(rèn)為它在此次試驗(yàn)中不會(huì)發(fā)生。此時(shí)就可以拒絕H0,接受H1。

下面以3個(gè)具體問題為例來介紹上面提到的3種方法。

三、問題一:不同的內(nèi)容類型是否會(huì)影響粉絲數(shù)量(使用方差分析)?

在抖音上,不同的創(chuàng)作者基本都有自己特定的內(nèi)容傾向,一般不會(huì)改變,比如有些是生活類,有些是游戲類,那么不同的內(nèi)容類型會(huì)決定粉絲量的上限嗎?或者說在頭部達(dá)人里,是否更高粉絲量的人集中在某些特定領(lǐng)域?

下圖顯示了不同分類達(dá)人的平均粉絲數(shù)量(單位:萬人)。單看此圖,你可能會(huì)認(rèn)為影視娛樂類的內(nèi)容更容易吸引粉絲,因?yàn)榇祟愡_(dá)人的平均粉絲數(shù)量最多,但是這種差異可能僅僅是本次抽樣誤差導(dǎo)致的結(jié)果,為此需要進(jìn)行的假設(shè)檢驗(yàn)是方差分析

方差分析主要用來檢驗(yàn)兩組以上平均數(shù)的差異問題,在本例中就是檢驗(yàn)17個(gè)內(nèi)容類型的平均粉絲量的差異。

自變量為內(nèi)容類型,因變量為粉絲量,因?yàn)橹挥幸粋€(gè)自變量,所以應(yīng)該進(jìn)行單因素方差分析。

  • H0:各內(nèi)容類型達(dá)人的粉絲量不存在顯著差異;
  • H1:至少有一組(兩個(gè))不同內(nèi)容類型達(dá)人的粉絲數(shù)量存在顯著性差異。在SPSS中步驟為分析→比較平均值→單因素ANOVA檢驗(yàn)。

將粉絲量選入因變量框,內(nèi)容類型選入因子框,點(diǎn)擊右側(cè)選項(xiàng)按鈕,勾選方差齊性檢驗(yàn),點(diǎn)擊確定。

進(jìn)行方差分析的一個(gè)前提就是要保證各組內(nèi)方差齊性,如果方差不齊則結(jié)果無意義。

本例最后的結(jié)果顯示,方差齊性檢驗(yàn)中p=0.528>0.05,各組方差齊性;方差分析中p=0.401>0.05。表明我們不能拒絕H0,即:

創(chuàng)作不同內(nèi)容的達(dá)人粉絲量間的差異僅是抽樣誤差,每個(gè)類型的達(dá)人粉絲數(shù)量并無顯著差異。

(注:假如p<0.05,則還需進(jìn)行事后檢驗(yàn)來檢驗(yàn)?zāi)男┙M間存在顯著性差異)

四、問題二:是否簽約MCN對頭部達(dá)人還有影響嗎(使用獨(dú)立樣本t檢驗(yàn))?

雖然簽約MCN可以幫助一個(gè)普通人獲得資本的加持,保障內(nèi)容的持續(xù)輸出,較快獲得流量變現(xiàn),但是在頭部達(dá)人中,MCN的作用還大嗎?下圖顯示了兩類達(dá)人數(shù)量及平均粉絲量。能據(jù)此作出簽約MCN的達(dá)人比未簽MCN達(dá)人的粉絲量更高嗎?

此時(shí)需要進(jìn)行的假設(shè)檢驗(yàn)是獨(dú)立樣本t檢驗(yàn),它和方差分析的區(qū)別在于,獨(dú)立樣本t檢驗(yàn)只能處理兩組平均數(shù),而方差分析主要用于處理3組及以上數(shù)量的平均數(shù)。

  • H0:簽約和未簽MCN達(dá)人的粉絲量無顯著差異;
  • H1:簽約和未簽MCN達(dá)人的粉絲量間存在顯著性差異。

在SPSS中的操作為分析→比較平均值→獨(dú)立樣本T檢驗(yàn)。

將粉絲量選入檢驗(yàn)變量框,是否簽約MCN選入分組變量框,點(diǎn)擊定義組,組1輸入“是”,組2輸入“否”,點(diǎn)擊繼續(xù),點(diǎn)擊確定。

結(jié)果如下:

在假定等方差時(shí),p>0.05,則不能拒絕等方差的結(jié)果,就看此行結(jié)果中的t檢驗(yàn)結(jié)果,p=0.944>0.05。表明不能拒絕H0,即:

在抖音頭部達(dá)人中,簽約和未簽MCN的達(dá)人的粉絲數(shù)量無顯著性差異。

五、問題三:以下指標(biāo)對粉絲數(shù)量有影響嗎(使用相關(guān)系數(shù)的顯著性檢驗(yàn))?

先來看3張散點(diǎn)圖。

從圖中可以看出的是,在與粉絲量的關(guān)系上,作品平均獲贊數(shù)>作品數(shù)>贊粉比,檢驗(yàn)此結(jié)果真實(shí)性需要進(jìn)行的是相關(guān)系數(shù)的顯著性檢驗(yàn),共檢驗(yàn)3次。

  • H0:粉絲量與XXX的相關(guān)系數(shù)為0;
  • H1:粉絲量與XXX的相關(guān)系數(shù)不為0。

在SPSS中的操作為分析→相關(guān)→雙變量。

將粉絲量與XXX選入右邊變量框,勾選左下角標(biāo)記顯著性相關(guān)性。

  • 作品數(shù)的結(jié)果顯示,r=0.146,p<0.05。說明兩者雖然相關(guān),但相關(guān)性很弱,即作品數(shù)對粉絲量有一定影響,但影響不大。
  • 贊粉比的結(jié)果顯示,r=-0.023,p>0.05。說明二者不存在相關(guān)關(guān)系,贊粉比對粉絲數(shù)量無影響。
  • 作品平均獲贊數(shù)的結(jié)果顯示,r=0.378,p<0.001。說明二者呈顯著的中等程度的正相關(guān),作品平均獲贊數(shù)對粉絲量影響較大。

檢驗(yàn)結(jié)果與我們設(shè)想的一致,但這并不表示可以直接通過散點(diǎn)圖的趨勢來判斷是否存在顯著性相關(guān),相關(guān)系數(shù)的大小也與是否顯著無關(guān),假如相關(guān)不顯著,那么相關(guān)系數(shù)再大也是無意義的,需要在相關(guān)顯著的基礎(chǔ)上,再通過相關(guān)系數(shù)的大小來判斷二者的相關(guān)程度。

六、結(jié)論

獨(dú)立樣本t檢驗(yàn)、單因素方差分析和相關(guān)系數(shù)的顯著性檢驗(yàn)都是較常用到且基本的假設(shè)檢驗(yàn)方法,掌握這些方法后可以避免被數(shù)據(jù)的表象迷惑,對結(jié)論做出更準(zhǔn)確的判斷。關(guān)于這三種方法的原理以及更詳細(xì)的適用條件,讀者可以自行查閱統(tǒng)計(jì)書籍。

 

本文由 @flowaa 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 原來相關(guān)性還需要顯著性檢驗(yàn),學(xué)到了

    回復(fù)