為什么互聯(lián)網(wǎng)巨頭如此熱衷于A/B測(cè)試?
編輯導(dǎo)語(yǔ):近年來(lái),A/B測(cè)試收到了許多互聯(lián)網(wǎng)巨頭的青睞,A/B測(cè)試源于學(xué)術(shù)層面的“隨機(jī)對(duì)照試驗(yàn)”,作為一種方法論,它在互聯(lián)網(wǎng)領(lǐng)域該如何應(yīng)用呢?
一、A/B測(cè)試前身:歷史悠久的對(duì)照實(shí)驗(yàn)
今天互聯(lián)網(wǎng)巨頭熱衷的A/B測(cè)試,其實(shí)源于學(xué)術(shù)層面的“隨機(jī)對(duì)照試驗(yàn)”,作為一種方法論,這種對(duì)照試驗(yàn)有著悠久的歷史。
1747年,為了治療壞血病,皇家海軍的外科醫(yī)生James Lind 設(shè)計(jì)了一項(xiàng)實(shí)驗(yàn)。他測(cè)試了蘋果醋、大麥水、橘子等六種不同藥方。
最終發(fā)現(xiàn)新鮮的橘子為最佳的治療藥物,盡管那時(shí)并不清楚是橘子中維C的作用。
1835年,醫(yī)學(xué)史上第一次“雙盲實(shí)驗(yàn)”在紐倫堡實(shí)現(xiàn)。一位名為弗里德里希的公共衛(wèi)生官員,為對(duì)抗當(dāng)時(shí)頗為流行的順勢(shì)療法開(kāi)啟了一個(gè)賭注:將25瓶順勢(shì)療法鹽水和25瓶蒸餾水分發(fā)給50位雙盲受試者。
最后8位聲稱產(chǎn)生了治療效果,但揭盲后發(fā)現(xiàn),有3位喝的其實(shí)是蒸餾水,弗里德里希贏得了賭注。
1935年,統(tǒng)計(jì)學(xué)家兼生物學(xué)家羅納德·費(fèi)雪(Ronald Fisher)寫了一本名為《實(shí)驗(yàn)設(shè)計(jì)》的書。在書中,他系統(tǒng)論述了隨機(jī)對(duì)照實(shí)驗(yàn)的設(shè)計(jì)原則和統(tǒng)計(jì)檢驗(yàn)的方法,成為實(shí)驗(yàn)設(shè)計(jì)領(lǐng)域的開(kāi)山之作。
1944年,在制造原子彈的過(guò)程中,曼哈頓計(jì)劃的領(lǐng)軍科學(xué)家?jiàn)W本海默,用3種方法測(cè)試如何分離鈾235,這一步驟成為整個(gè)項(xiàng)目中最關(guān)鍵的環(huán)節(jié)之一。
1960年代,大衛(wèi)·奧格威用對(duì)照測(cè)試的方法驗(yàn)證廣告的有效性——寫兩條不同的文案并要求報(bào)紙將其各印一半,同時(shí)在文案中留下索取免費(fèi)樣品的郵編和地址,但樣式不一樣,最終根據(jù)實(shí)際樣品索取量來(lái)觀察哪種文案效果更好。
……
可以清楚地看到,隨機(jī)對(duì)照實(shí)驗(yàn)作為一種方法論,在現(xiàn)代科學(xué)和商業(yè)發(fā)展中發(fā)揮了重要作用。
它本質(zhì)上能通過(guò)控制單一變量的方法來(lái)尋找最優(yōu)解決方案,已經(jīng)被廣泛運(yùn)用到工程學(xué)、醫(yī)學(xué)、教育學(xué)和多個(gè)領(lǐng)域的商業(yè)實(shí)踐中。
而我們今天要聊的A/B測(cè)試其實(shí)就是隨機(jī)對(duì)照實(shí)驗(yàn)在互聯(lián)網(wǎng)領(lǐng)域的具體應(yīng)用。
二、A/B測(cè)試,互聯(lián)網(wǎng)巨頭的標(biāo)配
A/B測(cè)試——又被稱為小流量實(shí)驗(yàn)。
通常是針對(duì)某個(gè)功能/UI/邏輯策略等,提供兩種(或多種)不同的備選解決方案,從總體用戶中隨機(jī)抽取一小部分流量,分配給不同方案,最終通過(guò)實(shí)驗(yàn)數(shù)據(jù)對(duì)比來(lái)確定最優(yōu)方案。
今天,在硅谷和中國(guó)的互聯(lián)網(wǎng)頭部企業(yè),A/B測(cè)試已經(jīng)成為業(yè)務(wù)發(fā)展的標(biāo)配。我們簡(jiǎn)單梳理下A/B測(cè)試是如何風(fēng)靡各大互聯(lián)網(wǎng)巨頭的。
2000年2月27日,谷歌搜索部門的一位工程師進(jìn)行了互聯(lián)網(wǎng)時(shí)代的第一次A/B測(cè)試——他想知道搜索結(jié)果每頁(yè)展示多少條是效果最好的,當(dāng)時(shí)默認(rèn)為 10。
實(shí)驗(yàn)是這樣設(shè)計(jì)的:
- 對(duì)于0.1%的搜索流量,每頁(yè)顯示20條結(jié)果;
- 另外兩個(gè)0.1%分別顯示25條、30條。
這次測(cè)試從直接結(jié)果看并不成功。由于技術(shù)故障,實(shí)驗(yàn)組頁(yè)面的加載速度明顯慢于對(duì)照組,最終導(dǎo)致實(shí)驗(yàn)的相關(guān)指標(biāo)下降。
但谷歌因此獲得了意外收獲,他們發(fā)現(xiàn)即便是0.1秒的加載延遲也會(huì)顯著影響用戶滿意度。很快,谷歌將改善響應(yīng)時(shí)間提升為高優(yōu)先級(jí)事項(xiàng)。
以這次實(shí)驗(yàn)為開(kāi)端,A/B測(cè)試在谷歌內(nèi)部快速流行起來(lái)。
2012年,據(jù)谷歌的首席經(jīng)濟(jì)學(xué)家范里安稱,谷歌每年就會(huì)開(kāi)展超過(guò)5000次的A/B測(cè)試。
亞馬遜早期,工程師Greg Linden曾提出一個(gè)想法:在客戶支付時(shí),根據(jù)他們購(gòu)物車中的商品,向他們提供個(gè)性化的“沖動(dòng)購(gòu)買”建議。
他精心做了一個(gè)Demo,但演示后當(dāng)時(shí)亞馬遜的一位副總裁武斷地否決了這一想法。Greg Linden并不氣餒,他業(yè)余時(shí)間用三個(gè)半月完成了這一功能的開(kāi)發(fā),并對(duì)這個(gè)功能進(jìn)行了小流量的測(cè)試。
結(jié)果證明,即便是這個(gè)極其粗糙、簡(jiǎn)陋的版本,也讓實(shí)驗(yàn)組用戶的購(gòu)買規(guī)模提升了17%。
于是,“商品推薦”這個(gè)今天司空見(jiàn)慣的功能從此在亞馬遜開(kāi)啟。
在Facebook,CEO扎克伯格曾公開(kāi)宣稱:
“在任何給定的時(shí)間點(diǎn),都不會(huì)只有一個(gè)版本的 Facebook 在線上運(yùn)行,而是有超過(guò)一萬(wàn)個(gè),我們的實(shí)驗(yàn)框架能隨時(shí)發(fā)現(xiàn)和感知用戶最細(xì)微的行為差異?!?/p>
在中國(guó),頭部的互聯(lián)網(wǎng)企業(yè)也都有自己的A/B測(cè)試平臺(tái)。比如字節(jié)跳動(dòng)的Libra、美團(tuán)的Gemini、滴滴的阿波羅。
張一鳴曾表示:
“即使你有99%的把握某個(gè)名字比另一個(gè)名字更好,測(cè)一測(cè)又有什么關(guān)系呢?”
目前在字節(jié)跳動(dòng),每天同時(shí)進(jìn)行的A/B測(cè)試達(dá)上萬(wàn)場(chǎng),單日新增實(shí)驗(yàn)數(shù)量超過(guò)1500個(gè),覆蓋400多項(xiàng)業(yè)務(wù)。截至今年3月底,字節(jié)跳動(dòng)累計(jì)已經(jīng)做了70多萬(wàn)次。
三、為什么互聯(lián)網(wǎng)巨頭熱衷于A/B測(cè)試?
互聯(lián)網(wǎng)公司大規(guī)模運(yùn)用A/B測(cè)試并非偶然,這背后深層次的原因在于:A/B測(cè)試是數(shù)據(jù)驅(qū)動(dòng)理念的最佳落地實(shí)踐,它能以最小的風(fēng)險(xiǎn)實(shí)現(xiàn)業(yè)務(wù)的有效反饋。
字節(jié)跳動(dòng)在發(fā)布APP的時(shí)候,通常會(huì)給APP取多個(gè)名字,打多個(gè)包上架到應(yīng)用市場(chǎng)進(jìn)行A/B測(cè)試,觀察不同名字的下載率、留存率等指標(biāo)。
這背后其實(shí)是一種尊重客觀事實(shí)的決策哲學(xué)。
事實(shí)上,在硅谷的互聯(lián)網(wǎng)文化中,那些靠拍腦袋的決策有一個(gè)專有名詞“HiPPO”:”Highest-paid person’s opinion”,即“公司收入最高的那個(gè)人說(shuō)了算”。
谷歌的技術(shù)專家Avinash Kaushik 曾說(shuō):
“大多數(shù)互聯(lián)網(wǎng)產(chǎn)品都很糟糕,因?yàn)?HiPPO 創(chuàng)造了它們?!?/p>
Netflix在2016年4月的一篇技術(shù)博客中寫道:
“通過(guò)對(duì)照測(cè)試的方法,我們確保產(chǎn)品變更不是由最固執(zhí)己見(jiàn),和最有發(fā)言權(quán)的Netflix高管驅(qū)動(dòng),而是由實(shí)際的在線數(shù)據(jù)驅(qū)動(dòng),這是我們走向成功的基礎(chǔ)。”
有人會(huì)問(wèn):A/B測(cè)試的決策思想其實(shí)由來(lái)已久,為什么直到現(xiàn)在才變得流行起來(lái)?
答案是實(shí)驗(yàn)成本。
在硬件產(chǎn)品時(shí)代,產(chǎn)品的開(kāi)發(fā)成本很高,一臺(tái)電腦如果控制不同變量,事實(shí)上它就變成兩臺(tái)不同的電腦,本質(zhì)上屬于兩條產(chǎn)品線,而開(kāi)發(fā)多條產(chǎn)品線對(duì)于硬件產(chǎn)品的成本是非常高的。
軟件產(chǎn)品時(shí)代開(kāi)發(fā)成本同樣高昂,一個(gè)版本的Windows要開(kāi)發(fā)數(shù)年,一個(gè)3A大作開(kāi)發(fā)同樣動(dòng)輒數(shù)年,這樣龐大的開(kāi)發(fā)成本是無(wú)法同時(shí)進(jìn)行不同版本的開(kāi)發(fā)的。
同時(shí),無(wú)論是硬件產(chǎn)品還是軟件產(chǎn)品,它們從開(kāi)發(fā)、上市到客戶反饋,這個(gè)周期是極其漫長(zhǎng)的,這樣冗長(zhǎng)的周期也讓靈活多變的A/B測(cè)試難以大規(guī)模應(yīng)用。
而到了互聯(lián)網(wǎng)時(shí)代,每一個(gè)產(chǎn)品特性都可以快速迭代,每一次迭代都能迅速得到反饋。
開(kāi)發(fā)成本的降低和反饋周期的縮短,這兩重因素?zé)o疑給A/B測(cè)試提供了極其便利的實(shí)踐條件。
為了讓A/B測(cè)試的價(jià)值得到更大發(fā)揮,很多互聯(lián)網(wǎng)巨頭還將這項(xiàng)能力開(kāi)放給C端用戶。
比如今日頭條發(fā)布文章的界面,作者可以取雙標(biāo)題和雙封面,經(jīng)過(guò)小流量的測(cè)試之后,推薦系統(tǒng)會(huì)自動(dòng)推薦點(diǎn)擊率高的標(biāo)題。
Facebook的廣告系統(tǒng)也給廣告主提供了一項(xiàng)組合實(shí)驗(yàn)?zāi)芰?,即客戶可以上傳不同的?biāo)題、描述、封面和按鈕。
Facebook自動(dòng)對(duì)這些元素進(jìn)行隨機(jī)組合,形成多個(gè)創(chuàng)意進(jìn)行A/B測(cè)試,自動(dòng)將預(yù)算分配到轉(zhuǎn)化率最高的創(chuàng)意組合上。
為什么今天傳統(tǒng)的“廣告大師”越來(lái)越少了?
因?yàn)榛ヂ?lián)網(wǎng)廣告在很大程度上不再依靠“大師”的靈光乍現(xiàn),而是更多地依靠?jī)?yōu)化師每天測(cè)試無(wú)數(shù)版文案和素材,甚至很多文案是機(jī)器生成的。
四、如何利用工具做好A/B測(cè)試?
我們?cè)谏厦娴牟糠至私饬薃/B測(cè)試的原理和意義,很多公司會(huì)問(wèn):我知道在增長(zhǎng)日益困難的今天,A/B測(cè)試是一個(gè)好東西,那到底應(yīng)該如何付諸實(shí)踐呢?
的確,A/B測(cè)試的實(shí)踐并不是一個(gè)簡(jiǎn)單的過(guò)程,它比很多人想象得要困難,這個(gè)困難體現(xiàn)在幾個(gè)層面:
首先,需要確定A/B測(cè)試的關(guān)鍵環(huán)節(jié)。
A/B測(cè)試到底測(cè)什么的問(wèn)題,即企業(yè)必須清楚哪些環(huán)節(jié)是推動(dòng)業(yè)務(wù)發(fā)展的關(guān)鍵,在關(guān)鍵環(huán)節(jié)上進(jìn)行試驗(yàn)。
如果找不到關(guān)鍵環(huán)節(jié),在無(wú)關(guān)痛癢的環(huán)節(jié)上,無(wú)論做多少A/B測(cè)試也是徒勞的。
其次,需要確保A/B測(cè)試過(guò)程的科學(xué)性和合理性。
比如控制單一變量,即確保實(shí)驗(yàn)組和對(duì)照組只有一個(gè)關(guān)鍵變量是存在差異的;
比如確保流量分配的均勻隨機(jī),即實(shí)驗(yàn)組和對(duì)照組的流量是完全獨(dú)立的,不存在互相影響的關(guān)系。
最后,還需要確定合適的評(píng)價(jià)指標(biāo)。
評(píng)價(jià)指標(biāo)通常不止一個(gè),是看A指標(biāo)還是B指標(biāo)?過(guò)程指標(biāo)還是結(jié)果指標(biāo)?短期指標(biāo)還是長(zhǎng)期指標(biāo)?單個(gè)指標(biāo)還是多重指標(biāo)?這些都需要根據(jù)業(yè)務(wù)實(shí)際情況審慎決定。
所以,A/B測(cè)試并不是一件容易的事。要充分解決以上問(wèn)題,對(duì)于企業(yè)而言,開(kāi)發(fā)一套完整的實(shí)驗(yàn)系統(tǒng)是其中的一個(gè)方案,但這通常需要較高的開(kāi)發(fā)成本。
另一種方式是使用成熟的第三方測(cè)試工具。
比如字節(jié)跳動(dòng)就將其內(nèi)部的A/B測(cè)試技術(shù)能力,通過(guò)其旗下的To B品牌“火山引擎”統(tǒng)一對(duì)外開(kāi)放。
2014年,字節(jié)開(kāi)始推動(dòng)A/B測(cè)試的平臺(tái)化,2016年正式建立A/B測(cè)試平臺(tái)Libra。
運(yùn)行至今,Libra已經(jīng)在字節(jié)的多個(gè)產(chǎn)品線驗(yàn)證了有效性,同時(shí)經(jīng)過(guò)多年迭代,在實(shí)用性、易用性、靈活性等層面都得到了充分驗(yàn)證。
火山引擎的A/B測(cè)試具體適用于哪些場(chǎng)景?主要有以下幾個(gè):
- 個(gè)性化推送實(shí)驗(yàn):在運(yùn)營(yíng)場(chǎng)景下支持APP個(gè)性化推送試驗(yàn),比較不同組推送效果。
- 可視化建站實(shí)驗(yàn):無(wú)需代碼,運(yùn)營(yíng)人員就可以直接在頁(yè)面上修改文案等元素進(jìn)行試驗(yàn)。
- 多鏈接網(wǎng)頁(yè)實(shí)驗(yàn):在需要轉(zhuǎn)跳網(wǎng)頁(yè)的場(chǎng)景下,可以把流量打到不同的著陸頁(yè)上去對(duì)比評(píng)估效果。
- 客戶端和服務(wù)端編程實(shí)驗(yàn):從前端的交互、功能迭代到后端的策略和模型優(yōu)化,支持灰度發(fā)布。
火山引擎的A/B測(cè)試可以靈活支持獲客、留存、轉(zhuǎn)化、傳播等各個(gè)環(huán)節(jié)的測(cè)試工作。比如說(shuō):
- 獲客階段,可以看哪個(gè)文案更適合;
- 轉(zhuǎn)化階段,可以看哪個(gè)算法效果更好;
- 傳播階段,可以看哪個(gè)互動(dòng)效果更佳。
悟空租車就使用火山引擎的A/B測(cè)試,對(duì)整個(gè)租車流程進(jìn)行了對(duì)照實(shí)驗(yàn)。實(shí)驗(yàn)的出發(fā)點(diǎn)是想減輕用戶對(duì)押金的壓迫感,提升轉(zhuǎn)化率。
悟空租車原有的流程是租金和押金在同一個(gè)頁(yè)面支付,用戶支付時(shí)心理成本較大,于是產(chǎn)品經(jīng)理設(shè)計(jì)了一個(gè)新方案:延遲支付押金,即先付租金再付押金。
但悟空租車不知道新方案是否奏效,于是就做了小流量的A/B測(cè)試。
很顯然,新方案頁(yè)面的流程更長(zhǎng),在直觀體驗(yàn)上增加了用戶的操作成本,然而結(jié)果顯示,新方案的整體轉(zhuǎn)化率提升了7%。
這就是A/B測(cè)試的意義。
據(jù)我觀察,字節(jié)跳動(dòng)對(duì)A/B測(cè)試的確有著非常深刻的理解,同時(shí)通過(guò)內(nèi)部的歷練和打磨,系統(tǒng)在同類產(chǎn)品中也的確最為成熟,可以切實(shí)為企業(yè)解決問(wèn)題。
正如亞馬遜將本來(lái)給自己內(nèi)部使用的云服務(wù)開(kāi)放出去一樣,字節(jié)跳動(dòng)也希望將自己有價(jià)值的能力對(duì)外開(kāi)放。
這種開(kāi)放是一種增量,既是自己技術(shù)能力的變現(xiàn),也能通過(guò)市場(chǎng)驗(yàn)證反哺團(tuán)隊(duì)的技術(shù)水平。
五、總結(jié)
A/B測(cè)試作為一種科學(xué)的實(shí)驗(yàn)手段,能夠幫助企業(yè)在多種方案中尋求最優(yōu)解,以最小的風(fēng)險(xiǎn)前置性地驗(yàn)證策略效果,為企業(yè)規(guī)避風(fēng)險(xiǎn)。
作為互聯(lián)網(wǎng)時(shí)代的企業(yè),理性擁抱前沿趨勢(shì)永遠(yuǎn)是最優(yōu)的選擇。
#專欄作家#
衛(wèi)夕,微信公眾號(hào):衛(wèi)夕指北(ID:weixizhibei),人人都是產(chǎn)品經(jīng)理專欄作家,2018年年度作者。一名興趣廣泛的廣告產(chǎn)品經(jīng)理,致力于用簡(jiǎn)單語(yǔ)言深度剖析互聯(lián)網(wǎng)相關(guān)的邏輯。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自 Unsplash,基于CC0協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!