如何利用A/B test科學(xué)驅(qū)動產(chǎn)品優(yōu)化?(附簡易案例數(shù)值分析)

6 評論 15748 瀏覽 116 收藏 14 分鐘

本文源于A/B測試 by Google的學(xué)習(xí)總結(jié),本文僅是對課程第一節(jié)內(nèi)容的學(xué)習(xí)總結(jié),希望大家可以一同學(xué)習(xí)并深入交流在實際工作中的A/B測試情況。

一、A/B 測試概述

A/B test概念:A/B測試是一種用于在線測試的常規(guī)方法,可用于測試新產(chǎn)品或新功能,需要設(shè)置兩組用戶,將其中一組設(shè)置為對照組,采用已有產(chǎn)品或功能,另一組采用新版產(chǎn)品或功能,通過對比分析上述用戶做出的不同響應(yīng)數(shù)據(jù),確定哪個版本更好。

A/B test 適用場景:通過大范圍的用戶數(shù)據(jù)觀察,如新功能界面中增加了內(nèi)容,不同的外觀,不同的按鈕配色,都可以使用A/B測試,幫助產(chǎn)品持續(xù)優(yōu)化。案例:google曾在用戶界面中運行了42不同藍色陰影,觀察用戶有什么反響。amazon做過測試,每個頁面增加100毫秒延遲,收入會降低1%,google也得出類似結(jié)果。

A/B test 局限性:A/B測試不適合做全新體驗的效果評估,因為全新的體驗存在兩個問題,比較基準(zhǔn)是什么?數(shù)據(jù)對比需要多長時間才能看到效果?(面對低頻服務(wù)-如租房,很難通過A/B測試看出推薦對于人們的行為影響)。

A/B test 練習(xí)題(評論區(qū)寫下你的選項,回復(fù)給你正確答案):

1、在以下什么情況下你可以考慮A/B測試?

A:你想要知道你的電商網(wǎng)站是否完整,是否存在用戶想要購買但是平臺無法提供的商品

B:公司已經(jīng)有了免費服務(wù),但想要提供有其他功能的高級服務(wù),需要客戶升級或付費

C:假設(shè)一個網(wǎng)站提供電影推薦服務(wù),通過新的算法對可能的建議進行排序

D:假設(shè)你想要改變基礎(chǔ)架構(gòu)的后臺,會影響到頁面加載速度和用戶看到的顯示結(jié)果

E:一個汽車銷售網(wǎng)站,考慮做出改變,想知道改變是否更可能再次訪問網(wǎng)站或者向他們的朋友推薦

F:假設(shè)一家公司想要更新他們的品牌形象,如主頁的logo,改版后對用戶行為產(chǎn)生哪些影響

G:假設(shè)你想改版移動應(yīng)用首頁,想要調(diào)整信息架構(gòu),觀察對用戶行為產(chǎn)生哪些影響

當(dāng)A/B測試不適用時,可以通過用戶操作日志檢查或觀察來分析,也可以通過隨機的試驗,進行前瞻性分析。也可以使用焦點小組,面對面溝通,問卷調(diào)查,用戶評價分析等方法獲得定性數(shù)據(jù),補充A/B測試的定量測試結(jié)果。

實操案例設(shè)計:wap首頁改版,wap首頁作為導(dǎo)流落地頁,主要功能為引導(dǎo)用戶完成注冊。

二、A/B 測試度量選擇

A/B測試前一定要設(shè)計合理的測試度量指標(biāo),通過審核核心指標(biāo)判斷不同測試版本的效果如何,如果需要測試首頁改變對于用戶注冊帶來的效果,可以使用獨立訪客點擊率作為測試首頁改變的度量值。

獨立訪客點擊率=獨立訪客點擊注冊按鈕數(shù)/獨立訪客登錄首頁數(shù)

實操案例設(shè)計:

  • 獨立訪客注冊按鈕點擊率=獨立訪客點擊注冊按鈕數(shù)/獨立訪客登錄著陸頁數(shù)
  • 獨立訪客注冊完成率=獨立訪客注冊完成數(shù)/獨立方可登錄著陸頁數(shù)

三、二項分布和置信區(qū)間

樣本數(shù)不同,則結(jié)果的置信度會收到影響,第一組實驗,獨立訪客點擊注冊按鈕數(shù)=100,獨立訪客登錄首頁數(shù)=1000,這注冊改版后的獨立訪客點擊率=100/1000=10%,那么在做一組實驗,如果獨立訪客點擊注冊按鈕數(shù)=150,是否異常?可以利用統(tǒng)計學(xué)知識進行測算測試結(jié)果是否可信。

數(shù)據(jù)中經(jīng)常會有特定的一些分布,幫我們了解數(shù)據(jù)變化規(guī)律,如正態(tài)分布,T分布,卡方分布等。我們關(guān)于首頁點擊情況符合二項分布。

二項分布就是重復(fù)n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對立,并且相互獨立,與其它各次試驗結(jié)果無關(guān),事件發(fā)生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當(dāng)試驗次數(shù)為1時,二項分布服從0-1分布。–【源自百度百科】

二項分布需要滿足以下條件:兩種結(jié)果;實驗彼此獨立,不相互干擾;事件要遵循同一種分布。

平均概率:p=x/n

檢驗是否符合正態(tài)分布:n*p>5,n(1-p)>5

置信區(qū)間寬:m(誤差幅度)=z(置信度)*SE(標(biāo)準(zhǔn)差);SE=√ ̄(p(1-p)/n)

μ±1.96標(biāo)準(zhǔn)誤之間包含所有平均數(shù)的95%,

μ±2.58標(biāo)準(zhǔn)誤之間包含所有平均數(shù)的99%

四、統(tǒng)計顯著性分析

假設(shè)檢驗或推斷是統(tǒng)計學(xué)中的一個概念,以量化的方式,確定你的結(jié)果發(fā)生的概率。

首先我們需要一個零假設(shè)或者說基準(zhǔn),也就是對照組和實驗組之間的概率沒有區(qū)別,然后要考慮的是備擇假設(shè)。要想確保結(jié)果具有統(tǒng)計顯著性,那么需要計算結(jié)果是偶然出現(xiàn)的可能性。要計算這個概率,你需要先假設(shè),如果實驗沒有效果結(jié)果會怎么樣,這就是所謂的零假設(shè),記為Ho,我們還需要假設(shè)如果實驗有效,那結(jié)果會是怎樣,這稱為備擇假設(shè),記為HA。

合并標(biāo)準(zhǔn)誤差(實驗中觀測差異是否具有統(tǒng)計顯著性)

Xcont,Xexp;Ncont,Nexp;

Pexp=Xcont/Ncont;Pcont=Xcont/Ncont

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

H0:d=0,d~N(0,SEpool)

if d-1.96*SEpool>0 or d+1.96*SEpool<0,則可以拒絕零假設(shè),認(rèn)為差別具有統(tǒng)計顯著性

從商業(yè)角度來說,2%的點擊概率改變就具有實際顯著性。

不同的實驗觀測樣本數(shù)量,直接影響實驗的有效性,那么如何設(shè)計科學(xué)的A/B測試呢?可以考慮使用下方工具,根據(jù)輸入數(shù)值,自動計算合理的實驗組和對照組的觀察人數(shù)。

在線測算實驗人數(shù)工具

工具說明

Significance level α:顯著性水平是估計總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯誤的概率,用α表示。顯著性是對差異的程度而言的,程度不同說明引起變動的原因也有不同:一類是條件差異,一類是隨機差異。它是在進行假設(shè)檢驗時事先確定一個可允許的作為判斷界限的小概率標(biāo)準(zhǔn)。

Statistical power 1?β:統(tǒng)計功效(statistical power )是指, 在假設(shè)檢驗中, 拒絕原假設(shè)后, 接受正確的替換假設(shè)的概率。我們知道,在假設(shè)檢驗中有α錯誤和β錯誤。α錯誤是棄真錯誤, β錯誤是取偽錯誤。取偽錯誤是指, 原假設(shè)為假,樣本觀測值沒有落在拒絕域中,從而接受原假設(shè)的概率,及在原假設(shè)為假的情況下接受原假設(shè)的概率。由此可知, 統(tǒng)計功效等于1-β。

首先要設(shè)計實驗,鑒于可以控制對照組和實驗組的網(wǎng)頁瀏覽量,我們必須要確定,為獲取統(tǒng)計顯著性的結(jié)果,最能獲取統(tǒng)計顯著性的結(jié)果,這稱為統(tǒng)計功效。功效與規(guī)模呈負(fù)相關(guān),你想要探索的改變越小,或者是你想要的結(jié)果置信度越高你需要運行的實驗規(guī)模就越大,這就是對照組和實驗組需要更多的網(wǎng)頁瀏覽量,大家可以嘗試在計算器中修改數(shù)據(jù),觀察實驗樣本數(shù)量,如修改最低可觀測效果,修改基準(zhǔn)轉(zhuǎn)化率,修改統(tǒng)計功效,修改顯著性水平。

五、案例實操分享

5.1 實驗設(shè)計背景

案例背景概述:wap首頁改版,wap首頁作為導(dǎo)流落地頁,主要功能為引導(dǎo)用戶完成注冊。滿足二項分布

計算最小實驗樣本:利用上圖工具,我們將dmin定為2%,意思是新版本用戶轉(zhuǎn)化增加超過2%才有效,置信區(qū)間選擇95%,經(jīng)過計算最小實驗樣本數(shù)為3623人。

5.2 實驗中需要用到的公式和評估標(biāo)準(zhǔn)

需要獲取信息:

對照組原首頁一定時間內(nèi)獨立訪問用戶數(shù):Ncont,點擊注冊按鈕的獨立用戶數(shù):Xcont,最小顯著性:dmin,置信度區(qū)間:95%時z=1.68。

觀察組新版首頁一定時間內(nèi)獨立訪問用戶數(shù):Nexp,點擊注冊按鈕的獨立用戶數(shù):Xexp。

計算合并標(biāo)準(zhǔn)誤差:

Ppool=(Xcont+Xexp)/(Ncont+Nexp)

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))

d=Pexp-Pcont

m=z*SEpool

(d-m,d+m)

通過上訴公式套用,可以計算出d和m值,那么在什么情況下可以判定優(yōu)化后是否具有實際顯著性,全面推廣改版呢?

如下圖所示,當(dāng)d>0時,d-m>dim我們說更新具有顯著效果

當(dāng)d<0時,d+m<-dim,我們可以得出結(jié)論,實驗版本失敗。

其他情況要么得出實驗不具有統(tǒng)計顯著性,要么需要進一步調(diào)整優(yōu)化實驗。

5.3 數(shù)值案例分析

經(jīng)測算我們得出如下數(shù)據(jù):

Xcont=974,Ncont=10072,Xexp=1242,Nexp=9986,dmin=2%,置信區(qū)間選擇95%,則z=1.96

Ppool=(Xcont+Xexp)/(Ncont+Nexp)=(974+1242)/(10072+9986)=0.111

SEpool=√ ̄(Ppool*(1-Ppool)*(1/Ncont+1/Nexp))=√ ̄(0.111*(1-0.111)*(1/10072+1/9986))=0.00445

d=Xexp/Nexp-Xcont/Ncont=1242/9986-974/10072=0.0289

m=z*SEpool=1.96*0.00445=0.0087

最小值d-m=0.0289-0.0087=0.0202,最大值d+m=0.0289+0.0087=0.0376,

因為:d>0,dmin<d-m

所以:實驗結(jié)果具有統(tǒng)計顯著性,同時增長超過2%,具有實際顯著性,得出結(jié)論,新版首頁對于注冊有更好的轉(zhuǎn)化效果,應(yīng)該替代原版首頁。

筆者正在深入學(xué)習(xí)A/B測試后面的課程,也希望大家可以一同學(xué)習(xí)并深入交流大家在實際工作中的A/B測試情況。

一張圖看懂A/B測試

#專欄作家#

田宇洲(微信公眾號:言之有術(shù)),人人都是產(chǎn)品經(jīng)理專欄作家,北京大學(xué)軟件工程管理碩士,北京電信4年產(chǎn)品經(jīng)理,負(fù)責(zé)B2B電商平臺的前后端產(chǎn)品設(shè)計,擅長游戲化產(chǎn)品設(shè)計,挖掘用戶畫像。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖由作者提供

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. ACDF

    回復(fù)
    1. 老師的答案是CDG,A選項無法通過測試獲得,比如我想購買飛機,實際上從現(xiàn)有網(wǎng)站中是無法獲取用戶想要飛機的需求的,F(xiàn)選項中的logo是品牌形象,對用戶的影響需要長期觀測,觀察周期較長影響因素太多,不適合使用A/B測試,

      來自北京 回復(fù)
    2. G選項調(diào)整首頁信息架構(gòu)應(yīng)該是多變量多吧?而且結(jié)果用戶行為可能包括多種行為,也沒有列出確切的哪個指標(biāo)。那E選項不可以做A/B test 嗎? 兩個不同的網(wǎng)站版本,就是一個變量。用戶的訪問率,或者推薦率,這個就是有確切test的指標(biāo)的吧。

      來自墨西哥 回復(fù)
  2. 好喜歡第一張圖的顏色,請問這個APP叫什么名字?

    來自湖南 回復(fù)
    1. ?? 關(guān)注的點好有特點,花瓣里面隨便搜的圖。。。并不知道什么APP

      來自北京 回復(fù)
  3. 這個a/b測試講的好專業(yè),涉及統(tǒng)計學(xué)。。正常來講的話,只要是看到現(xiàn)在的轉(zhuǎn)化率比之前的轉(zhuǎn)化率高就可以了吧,但是你寫的這篇還要論證后來數(shù)據(jù)的真實性。。這個你怎么學(xué)習(xí)的。

    來自浙江 回復(fù)