那些年,我們在A/B測試中踩過這5個坑

2 評論 13299 瀏覽 81 收藏 11 分鐘

如果這些坑真實反映了你當前的狀況,就請盡快修正測試方案,跳出陷阱才能得到更為科學(xué)可信的結(jié)果。

隨著Growth Hacking在中國的傳播和興起,作為增長黑客必殺技之一的A/B測試,也被越來越多的國內(nèi)企業(yè)所接受和重視。然而,A/B測試看似簡單,實則隱藏著許多溝溝坎坎,稍不注意就會導(dǎo)致試驗結(jié)果偏離科學(xué)軌道。那么今天,我們就為大家一一細數(shù)那些年我們在A/B測試中踩過的坑。

PS,文中包含大量真實案例,若能對號入座,請盡快修正試驗方案。

1. 輪流展現(xiàn)不同版本

對于廣告主而言,找到最有價值的廣告投放渠道,提升著陸頁(landing page)的轉(zhuǎn)化率,從而對整個廣告投放流程進行優(yōu)化,無疑是最核心的優(yōu)化目標。采用A/B測試對不同版本的廣告和著陸頁進行測試,是一種很有效的優(yōu)化手段。也就是將不同版本的廣告和著陸頁同時投放,根據(jù)它們各自的數(shù)據(jù)表現(xiàn),就可以判定哪一版更好。

而目前最常見的做法是,將不同版本的廣告進行輪流展示,比如谷歌Adwords系統(tǒng)中的測試功能,就是采用的這種方法。這種所謂的A/B測試(請注意,這種測試方法其實并不能被稱為真正意義上的A/B測試),就讓企業(yè)掉入了第一個陷阱。

舉個不太恰當?shù)睦?,如此的測試方法就好比在電視上投放廣告,分別選取了工作日的下午三點中和晚間黃金時段進行測試收集。由于輪流展示時的測試環(huán)境不盡相同,所面向的受眾群體更是千差萬別,因此最終試驗結(jié)束后的數(shù)據(jù)結(jié)果必然會存在一定偏差,也就更不具有說服性了。

正確的做法是:不同版本需要并行(同時)上線,并且盡可能的降低所有版本的測試環(huán)境差別,才能得到精準的數(shù)據(jù)結(jié)果,從而做出可信的決策。

2. 選擇不同應(yīng)用市場投放

在介紹這個誤區(qū)之前,必須先解釋一下什么是辛普森悖論。辛普森悖論是英國統(tǒng)計學(xué)家 E.H. 辛普森(E.H. Simpson)于1951年提出的悖論,即在某個條件下的兩組數(shù)據(jù),在分別討論時都會滿足某種性質(zhì),可是一旦合并起來進行考慮,卻可能導(dǎo)致相反的結(jié)論。

什么樣的情況會造成辛普森悖論呢?一個很典型的應(yīng)用場景:為了驗證新版本對于用戶使用真實影響,很多企業(yè)會選擇將不同版本打包,分別投放到不同的應(yīng)用市場。當發(fā)現(xiàn)其中某版本的數(shù)據(jù)表現(xiàn)的最好,就決定將該版本全量上線。殊不知,當將全部應(yīng)用市場整合起來進行統(tǒng)計,卻發(fā)現(xiàn)這個版本的表現(xiàn)差強人意,對核心數(shù)據(jù)產(chǎn)生了不利影響。

這里有一個真實的案例,某產(chǎn)品計劃在安卓客戶端上線一個新功能,于是先將不同版本以小流量投放在多個應(yīng)用市場(例如豌豆莢、91助手等)。一段時間之后,測試結(jié)果都指向了其中一個版本。但其實,這些不同應(yīng)用市場的用戶并不具有全用戶代表性,所以如果盲目將試驗選出的版本直接推送給全部用戶,就很容易因為辛普森悖論而出現(xiàn)完全相反的結(jié)果。

因此,避免這一大陷阱的正確做法是:將流量進行科學(xué)地分割,保證試驗組和對照組的用戶特征一致,且都具有全局代表性。

3. 試驗結(jié)果不好就一竿子打死

上一個誤區(qū)講的是「以偏概全」,那么接下來我們要介紹的這個誤區(qū)則是「以全概偏」,也叫做區(qū)群謬誤。

在這個概念中,認為群體中的所有個體都有群體的性質(zhì)。但如果僅基于群體的統(tǒng)計數(shù)據(jù),就對其下屬的個體性質(zhì)作出推論,那么得出的結(jié)論往往是不準確的。換句話說,當我們做了一次A/B測試后,發(fā)現(xiàn)試驗版本的數(shù)據(jù)結(jié)果并不理想,于是就認定所有的地區(qū)或渠道的效果都是負面的,那么我們就陷入了區(qū)群謬誤的陷阱。

作為國際短租平臺,搜索是Airbnb生態(tài)系統(tǒng)中很基礎(chǔ)的一個組成部分。Airbnb曾經(jīng)做過一個關(guān)于搜索頁優(yōu)化的A/B測試,新的版本更加強調(diào)了列出的圖片,以及房屋所在位置(如下圖所示)。

1

在等待了足夠長的時間之后,試驗結(jié)果顯示新老版本的整體數(shù)據(jù)相差無幾,似乎這次優(yōu)化沒有很好的效果。如果此時,Airbnb直接根據(jù)整體的數(shù)據(jù)表現(xiàn)放棄了這次優(yōu)化,那么這個花費了很多精力設(shè)計的項目就會前功盡棄。

然而,Airbnb并沒有借此放棄。相反,經(jīng)過仔細研究,他們發(fā)現(xiàn)除了IE瀏覽器之外,新版在其他不同瀏覽器中的表現(xiàn)都很不錯。當意識到新的設(shè)計制約了使用老版本IE的操作點擊后(而這個明顯為全局的結(jié)果造成了很消極的影響),Airbnb當即對其進行了修補。至此以后,IE恢復(fù)了和其他瀏覽器一樣的展示結(jié)果,試驗的整體數(shù)據(jù)增長了2%以上。

2

通過Airbnb的例子,我們能學(xué)到正確的做法是:在整體效果不太好的時候,不要一竿子打死,而需要從多個維度細分觀察個體的情況,以避免區(qū)群謬誤帶來的決策偏差。

4. “好奇害死貓”

一個好的產(chǎn)品必須要能夠激發(fā)用戶的好奇心,并在用戶的持續(xù)使用中對產(chǎn)品逐漸產(chǎn)生粘性,而不至于流失。但與此同時,我們需要時刻警惕好奇心理所帶來的數(shù)據(jù)偏差。

從心理學(xué)的角度來說,好奇心是個體遇到新奇事物或處在新的外界條件下所產(chǎn)生的注意、操作、提問的心理傾向。應(yīng)用到A/B測試的場景中,當一個產(chǎn)品推出了新的功能或主頁,用戶在早期出于好奇心理,發(fā)生了過多的試探性點擊,從而推動了相關(guān)數(shù)據(jù)的增長。如果這時就以為用戶更青睞于優(yōu)化后的版本,直接全量上線,就很有可能忽視了用戶的真實喜好。

所以,正確的做法是:適當延長試驗的運行時間,觀察試驗數(shù)據(jù)的走勢是否持久穩(wěn)定,消除用戶的好奇心給結(jié)果帶來的偏差。

5. 反復(fù)檢驗,區(qū)間一收斂就喊停

在反復(fù)檢驗中,我們提到了p-value的概念,它可以作為區(qū)間收斂結(jié)果顯著的一個參考。通常情況下,p=0.05是常用的顯著值。于是,我們會自然而然的認為當p達到這個值時,就可以得到顯著的結(jié)果。不過事實真是這樣嗎?可以看看下面這個案例。

Airbnb還做過另一個試驗,他們將搜索頁上的價格過濾器的上限從300調(diào)大到了1000,想知道預(yù)訂數(shù)是否會增加。他們監(jiān)測了價格過濾器試驗隨時間變化的結(jié)果,發(fā)現(xiàn)p-value曲線在7天之后就達到了0.05,并且這時候的結(jié)論是試驗版本在預(yù)訂方面起到了很顯著的效果,然而當他們繼續(xù)運行試驗的時候,卻發(fā)現(xiàn)這個試驗開始趨向于中立,最后得到的結(jié)果是兩個版本差別不大。

為什么不應(yīng)該在p-value達到0.05時就停止試驗?zāi)??Airbnb團隊認為,用戶預(yù)訂需要花很長的時間,所以早期的轉(zhuǎn)化在試驗最開始時會有不太恰當?shù)挠绊?。他們給出的建議是,為了避免統(tǒng)計學(xué)上的錯誤,最好的實踐方法就是基于樣本的總量計算所需最小效果,并在開始試驗之前就想好你要運行多久。

試驗給出的p-value值是基于認為你設(shè)計的試驗是已知樣本和效應(yīng)大小的,所以單純使用p-value作為停止試驗的準則是不太正確的。以及,如果你持續(xù)的監(jiān)控試驗的發(fā)展和p-value,就比較容易看到真實的效果。

以上,就是在做A/B測試時比較容易遇到的坑。還是文章開頭說過的那句話,如果剛才說到的那些坑真實反映了你當前的狀況,就請盡快修正測試方案,跳出陷阱才能得到更為科學(xué)可信的結(jié)果。

 

作者:吆喝科技,微信公眾號(appadhoc)。

本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. “以及,如果你持續(xù)的監(jiān)控試驗的發(fā)展和p-value,就比較容易看到真實的效果?!?/p>

    請問這個持續(xù)周期又該如何確定呢?

    來自廣東 回復(fù)
  2. 請問p-value曲線利用什么工具查看?

    來自廣東 回復(fù)