產(chǎn)品經(jīng)理該如何做A/B 測試?

2 評論 7501 瀏覽 71 收藏 12 分鐘

A/B測試的實質(zhì)是對照試驗,即通過對幾個不同的版本進(jìn)行對比,從而選出最優(yōu)版本。本文作者分享了A/B 測試的具體操作步驟,對過程中需要注意的問題進(jìn)行了總結(jié)。

在產(chǎn)品運營過程中會存在許多次迭代優(yōu)化,大到某項功能的增加或刪除、小到某個點擊按鈕的顏色,都有可能成為驅(qū)動關(guān)鍵轉(zhuǎn)化指標(biāo)提升的因素,那么就會存在一個問題,作為公司內(nèi)部的產(chǎn)品、運營等團(tuán)隊,要如何才能保證每一次的方案都能取得更好的效果呢?

很簡單,試一試就知道了。A/B 測試指的是根據(jù)試驗的目標(biāo),把測試群體分為2組(或更多的組,取決于備選方案的數(shù)量),每組采用不同方案試行,最后對統(tǒng)計結(jié)果進(jìn)行分析,選取效果最好的方案。

一、確定測試目標(biāo),提出方案

做任何事之前,都需要想清楚是為什么而做,因為這很大程度上決定了其可行性,以及之后的發(fā)力方向、時程、耗費的人力物力等。

1. 收集需求

需求可能來自真實業(yè)務(wù)中的方方面面,但都保持跟整個公司的發(fā)展大方向一致(也就是北極星指標(biāo)),這些需求的解決能夠從某個角度推動總體業(yè)務(wù)前進(jìn),(例如優(yōu)化注冊頁面文案可以提高新用戶注冊轉(zhuǎn)化率,增大產(chǎn)品拉新規(guī)模),包括但不限于以下來源:

(1)來自內(nèi)部(團(tuán)隊):

  • 產(chǎn)品部門
  • 運營部門
  • 市場部門
  • 研發(fā)部門

(2)來自外部(用戶):

  • 問卷調(diào)查
  • 用戶調(diào)研

(3)來自外部(行業(yè)):

  • 行業(yè)分析
  • 競品分析

用戶增長團(tuán)隊(or數(shù)據(jù)分析師們)收集到這些需求,會做出一些可行性評估,并篩選出合理需求進(jìn)入試驗庫。

2. 進(jìn)行優(yōu)先級排序

當(dāng)產(chǎn)生了眾多的需求之后,該如何安排先處理哪些呢?對于試驗順序的處理不能毫無章法,拎出哪個做哪個,針對此問題,可在公司內(nèi)部制定一個優(yōu)先級排序系統(tǒng),將所有待處理的需求進(jìn)行科學(xué)有序地排列。

例如ICE排序系統(tǒng)(Impact=影響力,Confidence=成功率,Effort=開發(fā)成本),其核心思路是根據(jù)不同試驗執(zhí)行的綜合性價比來決定先后順序,“性”指的是可以收獲到的價值(包括影響力及成功率),“價”指的是需要為此付出的人力物力及財力。預(yù)期影響力越大,成功概率越高,開發(fā)成本越小,優(yōu)先級就越高,反之則越低。

相信在評估上述的重要參考因素之后,可以比較清晰地指導(dǎo)不同的試驗順序,找到應(yīng)盡快實施的試驗。

假定排在試驗庫內(nèi)的頂端,有這么一個情景,某產(chǎn)品運營過程中發(fā)現(xiàn)“新用戶觀看時長”是個可以優(yōu)化的方向,初一看可能覺得無從下手,但對其進(jìn)行拆解后,可得出:

新用戶觀看時長=新用戶數(shù)*人均觀看時長=注冊頁面瀏覽人數(shù)*注冊轉(zhuǎn)化率*人均觀看時長

與歷史數(shù)據(jù)進(jìn)行比對后,發(fā)現(xiàn)問題出在注冊轉(zhuǎn)化率較低,因此想要通過A/B 測試的方法來提高注冊轉(zhuǎn)化率。

3. 提出假設(shè)

確定要做的試驗之后,需要對試驗的結(jié)果進(jìn)行假設(shè),通常由團(tuán)隊內(nèi)部綜合多方面因素給出。例如,想要通過優(yōu)化宣傳文案的方式,突出產(chǎn)品注冊的價值,提高注冊頁面轉(zhuǎn)化率。

針對上述目標(biāo),團(tuán)隊可能通過頭腦風(fēng)暴等方式,給出以下幾種文案:

  1. “一節(jié)課搞懂A/B測試,快來加入我們吧?!?/li>
  2. “國內(nèi)首個A/B測試課程,權(quán)威中的權(quán)威?!?/li>
  3. “手把手教你A/B測試:從規(guī)劃到落地?!?/li>

預(yù)測上述某種經(jīng)過優(yōu)化的文案能夠幫助激發(fā)用戶的注冊欲望,從而提高注冊轉(zhuǎn)化率。針對這些假設(shè),可以進(jìn)一步討論出較為適宜的1-2種作為試驗材料。

4. 確定方案

在完成上述兩個步驟后,已經(jīng)界定了試驗的核心,接下來需要對整個試驗的流程進(jìn)行系統(tǒng)化的規(guī)劃,形成標(biāo)準(zhǔn)、清晰、可執(zhí)行的文檔??筛鶕?jù)4w1h的思路較為完整地描述整個測試:

二、更新開發(fā)版本及測試

1. 更新開發(fā)版本

完整的測試方案敲定后,便需要將方案落地,將優(yōu)化內(nèi)容植入新開發(fā)的版本中。

2. 進(jìn)行測試

對新開發(fā)的版本進(jìn)行上線前的測試,主要包括以下幾個方面:

  • 基本質(zhì)量保證,即流程是否順暢
  • 測試A/B分流采樣是否生效,即用戶能否根據(jù)預(yù)設(shè)采樣比例進(jìn)入不同版本
  • 測試各個版本的指標(biāo)埋點能否正確上報
  • 觀察除修改點之外,其他變量是否保持完全一致,即是否有準(zhǔn)確控制無關(guān)變量

三、方案上線,運行試驗

測試通過的方案可以正式上線,實現(xiàn)分流之后不同分組用戶體驗到的不同方案。上線最初一兩天可先少量測試(一般在10%以下,避免有bug,保證不會有太多用戶受到影響),待上線效果趨于穩(wěn)定后再擴(kuò)展到全部的樣本。

四、統(tǒng)計并分析結(jié)果

在試驗上線后,需要對實驗數(shù)據(jù)進(jìn)行監(jiān)控。當(dāng)試驗結(jié)束后,負(fù)責(zé)的分析團(tuán)隊需要對收集的結(jié)果進(jìn)行分析,A/B測試主要使用的是假設(shè)檢驗的方法,假設(shè)檢驗是指通過樣本統(tǒng)計量得出的差異做出一般性結(jié)論,從而判斷總體參數(shù)之間是否存在差異的一種推論過程。

假設(shè)檢驗的主要步驟有:

  1. 根據(jù)問題要求,提出假設(shè)。假設(shè)檢驗中存在兩種假設(shè),第一種根據(jù)已知理論與事實作出的希望證明的假設(shè)叫做研究假設(shè),通常稱為H1。在統(tǒng)計學(xué)中不能對H1的真實性直接檢驗,而是利用反證法的思想,建立與之對立的假設(shè)(稱為虛無假設(shè),H0),通過否定H0來接受H1。例如“新版本的注冊轉(zhuǎn)化率比原先高30%”就是H1,“新版本注冊轉(zhuǎn)化率與原先無顯著區(qū)別”為H0,需要通過拒絕H0來證明H1。
  2. 選擇適當(dāng)?shù)臋z驗統(tǒng)計量。例如均值、方差等。一般情況下指的是對于均值的檢驗。
  3. 規(guī)定顯著性水平α。在假設(shè)檢驗中有可能會犯錯誤。如果虛無假設(shè)正確卻把它當(dāng)成錯誤的加以拒絕,犯這類錯誤的概率用α表示(也叫取偽錯誤),α就是假設(shè)檢驗中的顯著性水平。顯著性水平確定以后,拒絕域也隨之而定,而且對于不同的假設(shè)形式,拒絕域是不同的。顯著性水平的大小應(yīng)根據(jù)實際情況而定,如果對結(jié)果要求比較精確,則顯著性水平α應(yīng)小一些。一般情況下,根據(jù)小概率事件原理,將概率不超過0.05的事件當(dāng)做“小概率事件”,也就是α取0.05。
  4. 計算檢驗統(tǒng)計量的值。根據(jù)樣本資料計算出檢驗統(tǒng)計量的具體值。
  5. 作出決策。根據(jù)顯著性水平α和相應(yīng)統(tǒng)計量的分布,查相應(yīng)的統(tǒng)計表,查找接受域和拒絕域的臨界值,將計算出的統(tǒng)計值與臨界值相比較,若超出了接受域,則作出結(jié)論可以拒絕原假設(shè),判斷試驗方案有效改變某項指標(biāo)。

五、得出結(jié)論,加以應(yīng)用

根據(jù)上述對于結(jié)果的分析,可以得出新的方案是否成功提高某項指標(biāo)的結(jié)論。
若達(dá)到統(tǒng)計學(xué)上差異顯著的標(biāo)準(zhǔn),那么就可以將新方案逐漸覆蓋到整體,實現(xiàn)100%發(fā)布,完成之前的目標(biāo)。并且,如果試驗效果不錯的話,說明此優(yōu)化方向具有潛力,后續(xù)可以設(shè)置進(jìn)一步的試驗去探索,不斷地對此進(jìn)行優(yōu)化迭代,從而最大化效果的提升。

那么,如果沒有達(dá)到預(yù)期的目標(biāo)呢?那么就需要總結(jié)發(fā)現(xiàn)原因,如果是假設(shè)方向有誤,那么繼續(xù)探索其他假設(shè),如果是試驗過程中存在操作有誤,那么應(yīng)盡快發(fā)現(xiàn)具體問題點,將其改進(jìn)并繼續(xù)推進(jìn),直至得出正確結(jié)論。

具體流程如下圖:

六、回歸整體業(yè)務(wù)

最后也是最重要的是,試驗從整體業(yè)務(wù)中來,也需要回到整體業(yè)務(wù)中去,我們所得出的并不應(yīng)該僅僅是“某項指標(biāo)提高”這樣一個具體的數(shù)字,而要將其與宏觀的增長指標(biāo)聯(lián)系起來。回到之前的指標(biāo)模型:

新用戶觀看時長=新用戶數(shù)*人均觀看時長=注冊頁面瀏覽人數(shù)*注冊轉(zhuǎn)化率*人均觀看時長

假設(shè)之前的數(shù)據(jù)為:

360000分鐘=10000人*30%*120分鐘

并且假設(shè)其他因素保持不變,注冊轉(zhuǎn)化率提高30%

468000分鐘=10000人*39%*120分鐘

可以看到,僅僅對注冊頁的文案進(jìn)行了優(yōu)化,就將新用戶觀看時長提高了108000分鐘,這就非常清晰地讓人看到A/B測試的價值了。

總的來看,A/B測試說簡單也不簡單,大到整個測試戰(zhàn)略的制定,小到具體每一個測試項目的執(zhí)行,都需要各部門間協(xié)作,通過大量的數(shù)據(jù)采集、分析,不斷試驗不斷推翻,才能不斷地向更優(yōu)解接近。這也正是A/B 測試的意義與價值所在。

 

本文由 @ywmw_ 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 請問統(tǒng)計結(jié)果(數(shù)據(jù)清洗到可視化過程)是產(chǎn)品經(jīng)理負(fù)責(zé)還是開發(fā)負(fù)責(zé)。

    來自四川 回復(fù)
  2. 給了我很多啟發(fā),感謝分享。

    來自北京 回復(fù)