淺談AB測試?yán)锍R姷男疗丈U?/h2>
2 評論 27061 瀏覽 227 收藏 10 分鐘

優(yōu)秀的增長黑客,不會去投機(jī)取巧“制造數(shù)據(jù)”,而是認(rèn)真思考和試驗(yàn),用科學(xué)可信的數(shù)據(jù)來指導(dǎo)自己和企業(yè)的決策,通過無數(shù)次失敗的和成功的AB測試試驗(yàn),總結(jié)經(jīng)驗(yàn)教訓(xùn),變身能力超強(qiáng)的超級英雄。

辛普森悖論(Simpson’s Paradox)是英國統(tǒng)計(jì)學(xué)家E.H.辛普森(E.H.Simpson)于1951年提出的悖論,即在某個條件下的兩組數(shù)據(jù),分別討論時都會滿足某種性質(zhì),可是一旦合并考慮,卻可能導(dǎo)致相反的結(jié)論。

舉一個辛普森悖論的簡單小例子:一個大學(xué)有商學(xué)院和法學(xué)院兩個學(xué)院。這兩個學(xué)院的女生都抱怨“男生錄取率比女生錄取率高”,有性別歧視。但是學(xué)校做總錄取率統(tǒng)計(jì),發(fā)現(xiàn)總體來說女生錄取率卻遠(yuǎn)遠(yuǎn)高于男生錄取率!

1

商學(xué)院男生錄取率75%高于女生錄取率49%,法學(xué)院男生錄取率10%也高于女生錄取率5%,但是總計(jì)來說男生錄取率只有21%,只有女生錄取率42%的一半。

為什么兩個學(xué)院都是男生錄取率高于女生錄取率,但是加起來男生錄取率卻不如女生錄取率呢?主要是因?yàn)檫@兩個學(xué)院男女比例很不一樣,具體的統(tǒng)計(jì)學(xué)原理我們后面會詳細(xì)分析。

這個詭異(Counter intuitive)的現(xiàn)象在現(xiàn)實(shí)生活中經(jīng)常被忽略,畢竟只是一個統(tǒng)計(jì)學(xué)現(xiàn)象,一般情況下都不會影響我們的行動。但是對于使用科學(xué)的 AB 測試進(jìn)行試驗(yàn)的企業(yè)決策者來說,如果不了解辛普森悖論,就可能會錯誤的設(shè)計(jì)試驗(yàn),盲目的解讀試驗(yàn)結(jié)論,對決策產(chǎn)生不利影響。

我們用一個真實(shí)的醫(yī)學(xué) AB 測試案例來說明這個問題。這是一個腎結(jié)石手術(shù)療法的 AB 測試結(jié)果:

2

看上去無論是對于大型結(jié)石還是小型結(jié)石,A 療法都比 B 療法的療效好。但是總計(jì)而言,似乎 B 療法比 A 療法要好。

這個 AB 測試的結(jié)論是有巨大問題的,無論是從細(xì)分結(jié)果看,還是從總計(jì)結(jié)果看,都無法真正判斷哪個療法好。

那么,問題出在哪里呢?這個 AB 測試的兩個實(shí)驗(yàn)組的病歷選取有問題,都不具有足夠的代表性。參與試驗(yàn)的醫(yī)生人為的制造了兩個試驗(yàn)組本身不相似,因?yàn)獒t(yī)生似乎覺得病情較重的患者更適合 A 療法,病情較輕的患者更適合 B 療法,所以下意識的在隨機(jī)分配患者的時候,讓 A 組里面大結(jié)石病歷要多,而 B 組里面小結(jié)石病歷要多。

更重要的問題是,很有可能影響患者康復(fù)率的最重要因素并不是療法的選擇,而是病情的輕重!換句話說,A 療法之所以看上去不如 B 療法,主要是因?yàn)?A 組病人里重病患者多,并不是因?yàn)?A 組病人采用 A 療法。

所以,這一組不成功的 AB 測試,問題出在試驗(yàn)流量分割的不科學(xué),主要是因?yàn)榱髁糠指詈雎粤艘粋€重要的“隱藏因素”,也就是病情輕重。正確的試驗(yàn)實(shí)施方案里,兩組試驗(yàn)患者里,重病患者的比例應(yīng)該保持一致。

因?yàn)楹芏嗳巳菀缀雎孕疗丈U?,以至于有人可以專門利用這個方法來投機(jī)取巧。舉個例子,比賽100場球賽以總勝率評價好壞。取巧的人專找高手挑戰(zhàn)20場而勝1場,另外80場找平手挑戰(zhàn)而勝40場,結(jié)果勝率41%;認(rèn)真的人則專挑高手挑戰(zhàn)80場而勝8場,而剩下20場平手打個全勝,結(jié)果勝率為28%,比41%小很多。但仔細(xì)觀察挑戰(zhàn)對象,后者明顯更有實(shí)力。

從這幾個辛普森悖論的例子出發(fā),聯(lián)想到我們互聯(lián)網(wǎng)產(chǎn)品運(yùn)營的實(shí)踐里,一個非常常見的誤判例子是這樣的:拿1%用戶跑了一個試驗(yàn),發(fā)現(xiàn)試驗(yàn)版本購買率比對照版本高,就說試驗(yàn)版本更好,我們要發(fā)布試驗(yàn)版本。其實(shí),可能只是我們的試驗(yàn)組里圈中了一些愛購買的用戶而已。最后發(fā)布試驗(yàn)版本,反而可能降低用戶體驗(yàn),甚至可能造成用戶留存和營收數(shù)額的下降。

那么,如何才能在 AB 測試的設(shè)計(jì),實(shí)施,以及分析的時候,規(guī)避辛普森悖論造成的各種大坑呢?

最重要的一點(diǎn)是,要得到科學(xué)可信的 AB 測試試驗(yàn)結(jié)果,就必須合理的進(jìn)行正確的流量分割,保證試驗(yàn)組和對照組里的用戶特征是一致的,并且都具有代表性,可以代表總體用戶特征。這個問題一直是 AppAdhoc A/B Testing 云服務(wù)的云端系統(tǒng)著力研究和解決的問題。

在這里,特別要提出一下這個問題的一個特殊屬性:在流量試驗(yàn)越大時,辛普森悖論發(fā)生的條件越有可能觸發(fā)。這是一個和大數(shù)定理以及中心極限定理等“常規(guī)”實(shí)踐經(jīng)驗(yàn)完全不同的統(tǒng)計(jì)學(xué)現(xiàn)象。換句話說,大流量試驗(yàn)比小流量試驗(yàn)可以消除很多噪音和不確定性,但是反而可能受到辛普森悖論的影響。

舉個例子說明:如果只是拿100人做試驗(yàn),50人一組隨機(jī)分配,很可能是28男22女對22男28女,每個性別只是相差6個人而已。如果是拿10000人做試驗(yàn),5000人一組隨機(jī)分配,很可能是2590男2410女對2410男2590女,每個性別就差了180人,而這180人造成的誤差影響就可能很大。

除了流量分配的科學(xué)性,我們還要注意 AB 測試的試驗(yàn)設(shè)計(jì)與實(shí)施。

在試驗(yàn)設(shè)計(jì)上,如果我們覺得某兩個變量對試驗(yàn)結(jié)果都有影響,那我們就應(yīng)該把這兩個變量放在同一層進(jìn)行互斥試驗(yàn),不要讓一個變量的試驗(yàn)動態(tài)影響另一個變量的檢驗(yàn)。如果我們覺得一個試驗(yàn)可能會對新老客戶產(chǎn)生完全不同的影響,那么就應(yīng)該對新客戶和老客戶分別展開定向試驗(yàn),觀察結(jié)論。

在試驗(yàn)實(shí)施上,對試驗(yàn)結(jié)果我們要積極的進(jìn)行多維度的細(xì)分分析,除了總體對比,也看一看對細(xì)分受眾群體的試驗(yàn)結(jié)果,不要以偏蓋全,也不要以全蓋偏。一個試驗(yàn)版本提升了總體活躍度,但是可能降低了年輕用戶的活躍度,那么這個試驗(yàn)版本是不是更好呢?一個試驗(yàn)版本提升總營收0.1%,似乎不起眼,但是可能上海地區(qū)的年輕女性 iPhone 用戶的購買率提升了20%,這個試驗(yàn)經(jīng)驗(yàn)就很有價值了。

分層試驗(yàn),交叉試驗(yàn),定向試驗(yàn)是我們規(guī)避辛普森悖論的有力工具。

規(guī)避辛普森悖論,還要注意流量動態(tài)調(diào)整變化的時候新舊試驗(yàn)參與者的數(shù)據(jù)問題,試驗(yàn)組和對照組用戶數(shù)量的差異問題,以及其他各種問題。而優(yōu)秀的增長黑客,不會去投機(jī)取巧“制造數(shù)據(jù)”,而是認(rèn)真思考和試驗(yàn),用科學(xué)可信的數(shù)據(jù)來指導(dǎo)自己和企業(yè)的決策,通過無數(shù)次失敗的和成功的AB測試試驗(yàn),總結(jié)經(jīng)驗(yàn)教訓(xùn),變身能力超強(qiáng)的超級英雄。

 

作者:王曄,吆喝科技創(chuàng)始人兼 CEO

本文由 @王曄 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

評論
評論請登錄
  1. 很受益,不過有個疑問請教。“在流量試驗(yàn)越大時,辛普森悖論發(fā)生的條件越有可能觸發(fā)?!迸e的例子雖然180個人比6個人多,但是按照比例算卻更小呀。。不知道這么算對不對哈

    回復(fù)
  2. 有點(diǎn)意思

    來自北京 回復(fù)