產(chǎn)品經(jīng)理如何實施AB測試

2 評論 13286 瀏覽 194 收藏 10 分鐘

編輯導語:AB測試思想對于產(chǎn)品經(jīng)理來說十分重要,本篇文章作者講述了產(chǎn)品經(jīng)理實施AB測試的具體方法,詳細地講述了AB測試的具體流程,以及其中的注意點,感興趣的一起來學習一下吧。

如果你隨便拿起一本產(chǎn)品經(jīng)理相關的書籍,然后翻開來讀的話,你會發(fā)現(xiàn),它們都會不約而同地提到一個名詞“AB測試”。

其中的“佼佼者”《增長黑客》,更是“有過之而無不及”,因為A/B測試的思想徹徹底底貫穿這本書:無論是UI元素(字體、顏色、布局),產(chǎn)品功能,抑或是AARRR流程,都能看到A/B測試的影子。

這或許也是俞軍在《俞軍產(chǎn)品方法論》中寫道“產(chǎn)品工作屬于強實踐性的社會科學”的一個原因吧。關于AARRR流程的介紹請參考這篇文章《產(chǎn)品是門高實踐性學科》。

AB測試將分成兩篇文章,分別將從產(chǎn)品和統(tǒng)計學兩個方面介紹AB測試,適合想了解AB測試具體實施流程,以及探究AB測試背后統(tǒng)計學原理的同學閱讀。

一、AB測試流程

下面以一個電商產(chǎn)品為例,介紹如何開展A/B測試。

1. 實驗背景

背景:某電商app首頁商品點擊率較低,產(chǎn)品團隊急需解決這個問題。

提出想法:產(chǎn)品團隊通過用戶調研、競品分析、數(shù)據(jù)分析等方式找到了幾個可能的問題,并針對這些問題給出了設計方案,具體包括使用推薦算法、增加商品展示數(shù)量、發(fā)放優(yōu)惠券、增加購物清單功能等。

優(yōu)先級排序:由于提出的想法較多,而現(xiàn)有的資源有限,因此需要確定優(yōu)先級,選擇優(yōu)先級最高的想法進行實驗。

比如可以按照“ICE評分體系”,即Impact(影響力,即想法對關心的指標的提升程度)、Confident(信心,想法提出者對想法產(chǎn)生預期影響的信心)、Ease(簡易度,進行一項實驗所需要的時間和資源)。

三項分別打分之后,再相加平均便得到一個想法的綜合得分。通過評分后發(fā)現(xiàn)增加商品展示數(shù)量的優(yōu)先級最高,因此選擇這個想法進行實驗。具體評分如下:

業(yè)務背景:商品展示頁展示的商品數(shù)較少,產(chǎn)品團隊希望通過增加商品展示數(shù)量提升轉化率。

業(yè)務目的以及期望:希望通過商品展示頁的改版(原先一次只展示一張圖片,新的版本一次展示兩張圖片),提升用戶整體的點擊轉化率。

2. 實驗設計

  • 實驗目的:通過商品展示頁的改版,提升用戶整體點擊率。這里有兩點需要注意,第一點是指標的選擇,這里選擇了點擊率,可以了解一下常用的指標有哪些;第二點是預期值的確定,到底提升多少才能達到預期。以谷歌為例,他們認為2%就是一個很大的提升。這里我們采用谷歌的標準,即當實驗組比對照組至少提升2%的效果。
  • 實驗受眾:打開App首頁的用戶。
  • 自變量:實驗組展示改版后的電子商城首頁,展示的產(chǎn)品更多,對照組展示改版前的首頁。
  • 自變量取值:商品展示頁是否改版。
  • 因變量:點擊率(點擊商品的人數(shù)占進入首頁總人數(shù)的比例)。

3. 實驗樣本及實驗時長的確定

AB實驗需要用到隨機抽樣,也就是隨機從產(chǎn)品的用戶中選擇一部分,那么要選取多少呢。

想象一下,某工廠剛生產(chǎn)了一萬件零件,現(xiàn)在想要測試這批零件是否合格,那么要選擇多少樣本進行檢測呢?一件、兩件還是一萬件?

選擇的樣本太少,恐怕沒有說服力;選擇的樣本太多,成本又太高。最好的方法其實是在滿足統(tǒng)計學意義后,樣本要盡量的少。

下面的公式給出了樣本數(shù)量的計算方式,如果你看不懂,可以直接略過,知道有方法計算就好。

為確定樣本數(shù)量,我們先要確定三個值,即顯著性水平或第一類錯誤概率alpha一般取值為0.05或0.1,第二類錯誤概率beta,一般取值為0.1或0.2,以及實際想要達到的效果,比如點擊率提升2%。

其中,

  • Delta表示預期的提升,在這個例子中,我們期望提升2%;
  • sigma表示樣本方差,在比率的情況下,sigma^2=p(1-p),p是樣本的某一比率,比如現(xiàn)在首頁產(chǎn)品的點擊率為67%;
  • alpha第一類錯誤概率,一般取值為5%或1%;
  • beta第二類錯誤概率,一般取值為0.1或0.2;
  • z:正態(tài)分布累計概率為x時對應的分位數(shù)。

假設過去兩周內(nèi),平均每天有50000人打開過我們的app,若分成了四組實驗,每組實驗的流量不一樣,要保證獲得流量最小的那組達到最小樣本所要求的數(shù)量。

比如,流量最小那組占總流量的20%,即50000*20%=10000,而最小樣本數(shù)量為26000,因此至少需要26000/10000=3天。由于周末會影響實驗,所以一般會取整周時間;同時,要考慮節(jié)假日以及特殊的事件。

4. AA實驗

AA實驗:指的是實驗組和對照組所執(zhí)行的策略是一樣的,用于判斷分組方式是否引起顯著的差異。如果A/A實驗的結果也是顯著的,說明實驗方式本身會造成差異,因此A/B實驗的結果應當結合A/A的結果做校正分析。如果A/A實驗的結果不顯著,那么A/B實驗的結果無須校正。

5. 實驗上線

實驗上線分為兩部分,第一部分是數(shù)據(jù)的獲取。如果現(xiàn)有的數(shù)據(jù)能滿足我們的實驗需求,就不需要做什么;否則可能會增加數(shù)據(jù)埋點,以獲取所需數(shù)據(jù);第二部分是流量控制,讓用戶在進入首頁時,劃分到相應的實驗組和對照組,比如根據(jù)用戶ID的奇偶性分組。

6. 實驗結果分析

在實驗周期結束,拿到數(shù)據(jù)后,就需要進行數(shù)據(jù)分析,主要是計算統(tǒng)計值,以判斷實驗結果在統(tǒng)計學上是否具有顯著性,從而進行決策。至此,一個完整的A/B實驗流程結束。

二、后續(xù):關于指標的選擇

數(shù)據(jù)指標從業(yè)務上可以分為用戶數(shù)據(jù)指標(比如日新增用戶數(shù)、用戶活躍率,用戶留存率),用戶行為數(shù)據(jù)指標(PV、UV、轉化率)以及產(chǎn)品數(shù)據(jù)指標(GMV、客單價、復購率);

數(shù)據(jù)指標從數(shù)學定義可以分為分布相關(平均數(shù)、中位數(shù))、概率和比例(用戶點擊的概率)、比率(兩個數(shù)做除法)及求和計數(shù)等。

在選擇指標時,要保證選擇的指標是一個具有高靈敏度的指標,這意味著這個指標可以捕捉到你所關心的變化。

同時,當你不感興趣的事情發(fā)生時,指標不會發(fā)生很大的變化。

如果一個指標太敏感,那么它就不夠穩(wěn)健,因此在這兩者之間有一個平衡點,你需要研究一下數(shù)據(jù),找出要使用的指標??梢允褂肁A測試進行檢驗。

 

本文由 @Clarence 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 于軍的書里說過公式是在一定約束條件下才能生效的,你可以確定你那個晦澀難懂的公式是萬能的么?

    回復
  2. 在選擇指標時,要保證選擇的指標是一個具有高靈敏度的指標

    來自廣西 回復