做問卷調(diào)查時,你真的會選擇樣本嗎?

3 評論 8790 瀏覽 13 收藏 9 分鐘

編輯導(dǎo)語:問卷調(diào)查的作用主要是通過部分來推斷整體情況,那么部分的選擇就至關(guān)重要,選擇的部分能否代表整體,決定了問卷調(diào)查的可靠性。本篇文章就從樣本選擇的角度出發(fā),講講什么是樣本框,如何進(jìn)行抽樣,以及如何確定最小的樣本量。

一、抽樣框

抽樣框在抽樣調(diào)查中處于基礎(chǔ)地位,是抽樣問卷調(diào)查必不可少的部分,其對于推斷總體具有相當(dāng)大的影響。

抽樣框是用來代表總體,從中抽選樣本的一個框架。具體表現(xiàn)形式可以是一個學(xué)生的花名冊、工商企業(yè)名錄等。例如:假設(shè)現(xiàn)在要調(diào)查全國32萬所小學(xué)的學(xué)生家長對于國家“雙減政策”的民意調(diào)查,從中選取出10所最具有代表性的小學(xué),并從中抽取出10000名學(xué)生家長進(jìn)行調(diào)查。

那么在這個例子中 ,總體是32萬所小學(xué)的學(xué)生家長,抽樣框是所選出的10所小學(xué)的學(xué)生家長名冊,樣本是最后抽取出的10000名學(xué)生家長。

當(dāng)然抽樣框也不定是具象的,也可能是抽象的,例如,在大型零售商場對購買者或消費(fèi)者進(jìn)行隨機(jī)訪問調(diào)查時,并沒有具體的名冊。

抽樣框選取能否代表總體,直接決定了調(diào)研結(jié)果的可靠性。在我們的例子中選取10所學(xué)校家長需要能夠代表全國32萬所學(xué)校的學(xué)生家長,需要考慮的因素有很多,比如:收入因素、地域因素、宗教因素等等,因此在調(diào)研初期,根據(jù)調(diào)研的目的和主題盡可能確定準(zhǔn)確的抽樣框,從而減少調(diào)查的誤差。

我們來看一個由于抽樣框選取錯誤,而導(dǎo)致失敗的案例:1936年美國總統(tǒng)選舉民意測驗(yàn)。

1936年美國總統(tǒng)大選,競選的是民主黨的羅斯福和共和黨的蘭登。美國權(quán)威的《文學(xué)摘要》雜志社,為了預(yù)測總統(tǒng)候選人誰能當(dāng)選,采用了大規(guī)模的模擬選舉(他們以電話簿上的地址和俱車輛注冊系統(tǒng)的地址發(fā)出1000萬封信,收到回信200萬封)。預(yù)測蘭登將以57%對43%的比例獲勝,并大力進(jìn)行宣傳。

最后選舉結(jié)果卻是羅斯福以62%對38%的巨大優(yōu)勢獲勝。原因是在1936年的美國,富裕的家庭才有私人電話和汽車。為了挽救大蕭條造成的經(jīng)濟(jì)打擊,當(dāng)時的羅斯福政府強(qiáng)行干預(yù)市場經(jīng)濟(jì),從而在富人中普遍缺乏好感。

因此,《文學(xué)摘要》的調(diào)查樣本不是從總體(全體美國選民)中隨機(jī)地抽取,而是主要從富人的抽樣框中抽取,這樣的調(diào)查結(jié)果當(dāng)然對羅斯福不利。

在問卷領(lǐng)域,最關(guān)注的是“代表性”,而非數(shù)量。因此在選取樣本框時,一定要從多方面因素來考慮,從而避免選取出誤差較大的樣本框。

也許你想問,怎么才能知道自己的樣本數(shù)據(jù)是否正確。 很遺憾的告訴你,沒有辦法,除非調(diào)查了全部的總體,才能準(zhǔn)確的知道自己抽取的樣本是否正確。 但是沒有關(guān)系,誤差是會永遠(yuǎn)存在的,我們需要做的是盡可能的減少誤差,而不是消滅誤差。

二、抽樣方法

抽樣是指從抽樣框或總體中抽取出一部分?jǐn)?shù)據(jù)作為樣本的動作。抽樣的方法有很多,介紹幾種常見的抽樣方法。

1. 簡單隨機(jī)抽樣

一般的,設(shè)一個總體個數(shù)為N,如果通過逐個抽取的方法抽取一個樣本,且每次抽取時,每個個體被抽到的概率相等,這樣的抽樣方法為簡單隨機(jī)抽樣。適用于總體個數(shù)較少的。

2. 系統(tǒng)抽樣

當(dāng)總體的個數(shù)比較多的時候,首先把總體分成均衡的幾部分,然后按照預(yù)先定的規(guī)則,從每一個部分中抽取一些個體,得到所需要的樣本,這樣的抽樣方法叫做系統(tǒng)抽樣。

3. 分層抽樣

抽樣時,將總體分成互不交叉的層,然后按照一定的比例,從各層中獨(dú)立抽取一定數(shù)量的個體,得到所需樣本,這樣的抽樣方法為分層抽樣。適用于總體由差異明顯的幾部分組成。

4. 整群抽樣

整群抽樣又稱聚類抽樣。是將總體中各單位歸并成若干個互不交叉、互不重復(fù)的集合,稱之為群;然后以群為抽樣單位抽取樣本的一種抽樣方式。應(yīng)用整群抽樣時,要求各群有較好的代表性,即群內(nèi)各單位的差異要大,群間差異要小。

5. 多段抽樣

多段隨機(jī)抽樣,就是把從調(diào)查總體中抽取樣本的過程,分成兩個或兩個以上階段進(jìn)行的抽樣方法。

系統(tǒng)、分層、整體、多段比較難實(shí)現(xiàn),在問卷調(diào)查中經(jīng)常被使用到的方法是簡單隨機(jī)抽樣。

三、如何確定最小取樣數(shù)量

樣本量越大越好嗎?樣本量確實(shí)越大越好,樣本越大越接近數(shù)據(jù)總體情況,但樣本量越大同時也代表需要付出更多的人力和財(cái)力,所以往往出于現(xiàn)實(shí)因素的考慮,需要確定最少取樣數(shù)量。最小取樣數(shù)量公式如下:

n:樣本量

?^{2}:方差(用來衡量數(shù)據(jù)離散程度:?^{2}=\frac{∑(X-μ)^{2}}{N}

X:變量

μ:總體均值

N:總體例數(shù)

在調(diào)研實(shí)際情況中,往往方差都是未知的,所以在這種情況下可用樣本率進(jìn)行預(yù)估,當(dāng)樣本率P=0.5時,P(1-P)=0.25,此時為方差理論最大值。

Z_{?/2}:置信度(用來表示估計(jì)結(jié)果的可靠性)當(dāng)置信度為95%時,Z_{?/2}=1.96;當(dāng)置信度為90%時,Z_{?/2}=1.64(其他數(shù)值的置信度可以通過正態(tài)分布表/t分布表中查到)

E:抽樣誤差(用來表示可接受的抽樣誤差)

根據(jù)最小樣本的計(jì)算公式我們可知樣本量的大小不取決于總體的多少,而取決于研究對象的變化、所要求或允許的誤差大小,以及要求推斷的置信程度。

舉例:當(dāng)你希望的調(diào)查結(jié)果要達(dá)到90%可靠程度,且誤差不超過2%,那么需要的樣本約等于\frac{1.64^{2}\times0.25}{0.02^{2}}=1681個。從統(tǒng)計(jì)學(xué)角度,在要求的精準(zhǔn)度水平下,不考慮其他的因素影響,若簡單隨機(jī)抽樣,300~400個樣本已經(jīng)能夠達(dá)到置信度95%,誤差率不超過5%。

需要一提的是,當(dāng)樣本低于100時,幾乎所有的結(jié)構(gòu)方程模型分析都是不穩(wěn)定的,大于200以上的樣本,才稱得上一個中型樣本。若要得到穩(wěn)定的結(jié)構(gòu)方程模型結(jié)構(gòu),低于200的樣本數(shù)量是不鼓勵的。

 

作者:WOWdesign,研究設(shè)計(jì)價(jià)值最大化,涉及用戶體驗(yàn)、品牌體驗(yàn)、空間體驗(yàn)。

本文由 @WOWdesign 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Pexels,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 最近為了市場調(diào)查云里霧里,突然有了一點(diǎn)方向??

    來自福建 回復(fù)
  2. 作者所寫的這篇文章寫得非常詳細(xì)和專業(yè)啊~

    回復(fù)
  3. 樣本的可靠性和專業(yè)性在很大程度上影響著調(diào)查的結(jié)果,這篇文章真的啟發(fā)很大

    來自湖北 回復(fù)