千萬別因選錯指標,毀了你的A/B實驗
選對AB實驗指標,可能是你實驗成功與否的關(guān)鍵。本文將揭秘如何選擇合適的實驗指標,幫助你在實驗中快速實現(xiàn)目標。
實驗設(shè)計主要有三個步驟:選擇實驗指標、確定實驗受眾和設(shè)計實驗版本。
其中,選擇正確的實驗指標至關(guān)重要。在設(shè)計實驗時,真正嘗試過的同學(xué)都會意識到這里有很多坑。
很多時候?qū)嶒炆暇€了,但是指標定義的不準確,導(dǎo)致得不出結(jié)論,或者甚至得出了錯誤的結(jié)論;有時候?qū)嶒灡砻嫔峡雌饋砗艹晒Γ?b>但對下游的某一個指標有很大的影響,但是我們壓根不知道。
以上問題,應(yīng)該如何避免?
一、選擇正確的實驗指標
1. 實驗設(shè)計的三個步驟
(1)選擇實驗指標
選擇實驗指標是實驗設(shè)計的第一步,我們要回答的最關(guān)鍵問題是:哪些指標能夠衡量實驗的成功或失???這一步非常重要,就像做增長要先找到北極星指標一樣,做實驗也要先找到正確的實驗指標。
(2)確定實驗受眾
確定實驗受眾是實驗設(shè)計的第二步。我們需要清晰地定義出實驗受眾,并估算出所需要的樣本量。這樣你就可以根據(jù)你具體的情況來做一些調(diào)整,比如說減少一些實驗的版本數(shù),或者加大這個實驗版本的改動的程度。
(3)設(shè)計實驗版本
設(shè)計實驗版本是實驗設(shè)計的第三步。如果采用第三方實驗工具,整個流程相對簡單;如果要自建實驗系統(tǒng)進行設(shè)計和開發(fā),流程會比較復(fù)雜。
本文主題聚焦于如何選擇核心指標,未來再逐步分享如何確定實驗受眾和設(shè)計實驗版本。
2. 亞馬遜中國的實驗指標選擇
下面通過亞馬遜中國的案例,說明為什么選擇正確實驗指標至關(guān)重要。
(1)亞馬遜中國購物車AB測試第一次失敗
a. 第一次實驗指標選擇銷售額,新版本表現(xiàn)更差
亞馬遜中國想做一個購物車的AB測試。中國用戶習(xí)慣把購物車當(dāng)收藏夾用,部分選擇產(chǎn)品結(jié)賬,其余產(chǎn)品留在購物車里。但亞馬遜全球的購物車設(shè)計是全部結(jié)賬的模式。
亞馬遜中國的團隊針對這樣的發(fā)現(xiàn),就想設(shè)計一個 AB 測試來測一下。如果把亞馬遜中國也改成可選擇部分商品結(jié)賬,這樣的這樣一種更受中國用戶習(xí)慣的方式,是不是效果會更好?
他們第一次選擇的實驗指標是銷售額,實驗上線后,結(jié)果是跑了一個月的部分結(jié)賬版本輸給了全部結(jié)賬版本,銷售額更低,不得不進行了回滾。
b. 進一步分析發(fā)現(xiàn)新用戶不熟悉全部結(jié)賬,導(dǎo)致銷售額虛高但長期滿意度下降
團隊百思不得其解,為什么在中國其他電商網(wǎng)站上成功的版本,在亞馬遜中國不適用?進一步分析后有三個發(fā)現(xiàn):
①第一個發(fā)現(xiàn)是新用戶剛接觸全部結(jié)賬的版本(也就是老版本)還不夠熟悉,很多人都會出現(xiàn)一不小心買多了的情況,所以就會推高老版本的銷售額。這些一不小心買多了的用戶,只有部分會去退貨,因此銷售額還是比較高的。
②但是買多了的用戶長期滿意度下降,因為他們過一段時間反應(yīng)過來了,發(fā)現(xiàn)自己不小心買多了。
③在部分結(jié)賬的版本里面,很多用戶其實會把購物車里面保留的產(chǎn)品過一段時間又買回來,所以這些產(chǎn)品其實是有潛在銷售的機會的,但是用戶的購買時間存在延遲,因此在之前做實驗的事后是顯示不出來的。
c. 亞馬遜中國首次實驗指標選擇小結(jié)
最后,亞馬遜中國團隊得出結(jié)論:如果第一次實驗就對比更多指標,可能會發(fā)現(xiàn)全部結(jié)賬版本短期銷售額高,但退貨率高,長期滿意度低;而部分結(jié)賬版本長期復(fù)購率和銷售額更高。但第一次實驗只關(guān)注了短期銷售額,沒關(guān)注其他指標,導(dǎo)致得出老版本更好的錯誤結(jié)論。
(2)亞馬遜中國優(yōu)化實驗指標,二次實驗成功
基于上述總結(jié)認知,亞馬遜中國團隊重新定義實驗指標,進行二次實驗。
核心指標從第一版的短期銷售額,變成了綜合銷售額的概念,不僅包括短期直接銷售額,還包括對長期銷售額的預(yù)期。
同時,也加入了一系列輔助指標,如復(fù)購率、下單頻次、結(jié)賬轉(zhuǎn)化率等。這些指標雖然不足以直接說明實驗的成敗,但是可以從各個側(cè)面輔助我們做出決策。
最后,還加入了退貨率作為衡量負面結(jié)果大小的指標。
通過全面觀察一系列實驗指標,部分結(jié)賬的新版本最終勝出。它不僅帶來了綜合銷售額的提升,還帶來了下單頻次的提升,終于成功上線。
亞馬遜中國團隊并沒有改變實驗版本的任何設(shè)計,只是選擇了更全面準確的實驗指標,就從實驗失敗變成了成功。
由此可見,AB實驗成功的關(guān)鍵在于選擇正確指標,包括核心指標、輔助指標和反向指標,以全面、準確地衡量實驗成效。
二、準確全面衡量實驗成敗的三類指標
那么,想要準確全面地衡量實驗成敗,應(yīng)該如何選取指標?建議大家考慮選擇核心指標、輔助指標和反向指標這三類實驗指標。
1. 核心指標:決定實驗成敗的關(guān)鍵指標
(1)核心指標代表實驗的最終北極星指標
核心指標是決定實驗成敗的關(guān)鍵指標。對于做增長實驗來說,我們要找到?jīng)Q定這個實驗成敗的最關(guān)鍵指標,它是我們后期進行統(tǒng)計顯著性計算,決定新老版本哪個更好的指標。
(2)案例:APP首頁新手引導(dǎo)板塊AB測試
某 APP 做了首頁新手引導(dǎo)板塊的改版,它的目標是想讓新用戶了解產(chǎn)品功能,完成初始設(shè)置。
實驗假設(shè)是通過讓用戶閱讀更多的新手介紹文章,告訴他們這個產(chǎn)品怎么用,可以幫助他們完成初始的設(shè)置。
A版本是新手文章呈卡片式排列,B版本是文章呈清單式排列。如果關(guān)注點擊率,就會發(fā)現(xiàn)B組清單版本表現(xiàn)更好;但如果關(guān)注新手設(shè)置完成率,就會發(fā)現(xiàn)A組卡片版本表現(xiàn)更好。
這種情況下,核心指標應(yīng)該選新手設(shè)置完成率,而非文章標題點擊率。和選擇增長北極星指標一樣,做實驗時也要注意不要選擇虛榮指標。
要以實驗最終目標為準繩,選擇最能代表目標的指標作為核心指標。雖然B組點擊率更高,但根據(jù)實驗最終目標,它的表現(xiàn)更差,最終勝出的是A組卡片版本。
2. 輔助指標:全面了解實驗結(jié)果
對于絕大多數(shù)簡單實驗,可能只有一個核心指標就夠了。但對于比較復(fù)雜、涉及長漏斗或?qū)ο掠沃笜丝赡苡杏绊懙膶嶒?,我們還要選擇輔助指標。
(1)影響整個用戶漏斗的各個步驟
衡量實驗成敗的第二類指標是輔助指標,它可以幫助我們?nèi)媪私鈱嶒灲Y(jié)果,確保沒有誤傷到某些指標。如果實驗影響到整個用戶漏斗,我們不應(yīng)只看漏斗的最終步驟,還要監(jiān)測對整個漏斗所有步驟的影響。
(2)關(guān)注下游和其他用戶關(guān)鍵指標
如果有一些重要的下游指標,我們要全面觀測實驗會不會對某個下游指標產(chǎn)生影響,以及對其他用戶關(guān)鍵指標的影響。
(3)案例:Airbnb采用關(guān)鍵指標儀表盤全面評估實驗影響
事實上,一些硅谷大規(guī)模進行增長實驗的公司如Airbnb,他們采取的方式是做一個關(guān)鍵指標儀表盤,任何一個增長實驗的結(jié)果都會放到這個儀表盤上,觀察對任何關(guān)鍵指標有無影響。如果有影響都會顯示出來,這樣就可以避免一不小心誤傷到某些指標的情況。
3. 反向指標:提示實驗可能的負面影響
(1)為什么需要反向指標
反向指標可以提示實驗可能的負面影響。如果負面影響很小或沒有,我們就可以宣告實驗成功;如果負面影響太高,就算核心指標表現(xiàn)更好,我們也可能直接否決實驗結(jié)果。一般來說反向指標選取1-2個即可。
(2)常見反向指標
常見的反向指標包括NPS、應(yīng)用刪除率、郵件退訂率、push退訂率以及頁面退出率等。
綜上,核心指標衡量關(guān)鍵實驗成果,輔助指標全面理解實驗作用,反向指標防止忽視負面影響。
4.綜合案例:電商網(wǎng)站購物車按鈕AB測試指標選擇
舉例,如果一個電商網(wǎng)站想做加入購物車按鈕的AB測試,測試各種購物車按鈕哪個表現(xiàn)更好,應(yīng)該怎么選擇指標?因為購物車按鈕在產(chǎn)品詳情頁上,我們可以把整個用戶購物漏斗畫出來。
(1)核心指標
此案例中,應(yīng)該選擇的核心指標就是加入購物車按鈕本身的點擊率,因為它是實驗想影響的主要的目標。
(2)輔助指標
在這個例子里面,雖然最終的目標是提高銷售額,但是加入購物車和提高銷售額之間有非常多的步驟,因此我們應(yīng)該把加入購物車作為核心的指標,而銷售額作為一個輔助的指標。
其他的輔助指標還包括加入購物車按鈕的點擊次數(shù),有多少人訪問購物車的頁面,或者在購物車下單成功銷售額、復(fù)購率等等。
(3)反向指標
最終的反向指標可能是退貨率。
通過選擇合適的三類指標,我們就可以全面衡量這個改動對整個購物漏斗的影響,不會只看到其中一方面而漏掉其他可能的影響。
以上就是如何通過三類實驗指標準確全面的衡量實驗的結(jié)果,后續(xù)還會介紹如何通過 AB 測試的系統(tǒng)和工具來確??茖W(xué)分流和結(jié)果的可信性。
所以,不要害怕實驗中的失敗和挑戰(zhàn),而應(yīng)該更加聚焦于如何通過科學(xué)的方法——正確選擇指標、深入了解受眾、科學(xué)流量劃分,來提升我們的實驗設(shè)計能力。因為每一次實驗,都是向成功邁進的一步。
本文由 @小黑哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!