實(shí)驗(yàn)引爆用戶增長:A/B測試最佳實(shí)踐
A/B測試是什么?怎么做?有什么作用呢?本篇文章為大家分享了幾種應(yīng)用場景及案例,告訴大家如何在團(tuán)隊(duì)中有效推進(jìn)A/B測試。
在互聯(lián)網(wǎng)下半場競爭中實(shí)現(xiàn)科學(xué)增長,切實(shí)讓A/B測試發(fā)揮增長引擎的作用是應(yīng)有之義。
本文分享了A/B測試對業(yè)務(wù)轉(zhuǎn)化率提升帶來的價(jià)值,以及如何在團(tuán)隊(duì)中有效推進(jìn)A/B測試及A/B測試系統(tǒng)科學(xué)設(shè)計(jì)實(shí)踐等內(nèi)容。
一、今日頭條增長秘籍:A/B測試驅(qū)動(dòng)
抖音可以說是現(xiàn)在增長最火熱的公司,流行于大街小巷行走的人們手機(jī)之中,它讓騰訊感到深深的危機(jī)感,被迫應(yīng)對,從2017年下半年開始,抖音就呈現(xiàn)出現(xiàn)象級爆發(fā)式增長。
其母公司字節(jié)跳動(dòng),估值750億美元,本身就是一個(gè)非常講究實(shí)驗(yàn)、以A/B測試驅(qū)動(dòng)科學(xué)增長的公司。
A/B測試對頭條系產(chǎn)品來講是很自然的事情,整個(gè)公司從最高管理層張一鳴開始就非常注重。36Kr曾在一篇報(bào)道中寫道,“頭條發(fā)布一個(gè)新APP,其名字都必須打N個(gè)包放到各大應(yīng)用市場進(jìn)行多次A/B測試而決定,張一鳴告訴同事:哪怕你有99.9%的把握那是最好的一個(gè)名字,測一下又有神馬關(guān)系呢?”
今日頭條從起名字開始就運(yùn)用了數(shù)據(jù)思維,創(chuàng)始團(tuán)隊(duì)沒有頭腦風(fēng)暴,沒有投票,沒有老大拍板兒,而是采用科學(xué)實(shí)驗(yàn)的方式,通過數(shù)據(jù)觀測確定了頭條的名稱。
他們將App Store上各類免費(fèi)榜單的前10名整理出來,然后根據(jù)名字歸類(朗朗上口白話類,內(nèi)涵情懷類,模擬特殊聲音類,公司名+用途類等),分析那各類數(shù)量占比。分析結(jié)論是朗朗上口的大白話效果最好。
其次,分渠道A/B測試,確定先驗(yàn)效果類似的發(fā)布渠道,分別投放,界面功能logo完全一樣,統(tǒng)計(jì)各個(gè)渠道的用戶下載和活躍等核心數(shù)據(jù)指標(biāo),最后測得《今日頭條》效果最好。
二、什么是A/B測試?
A/B 測試是一種產(chǎn)品優(yōu)化的方法,為同一個(gè)優(yōu)化目標(biāo)制定兩個(gè)方案(比如兩個(gè)頁面),讓一部分用戶使用 A 方案,同時(shí)另一部分用戶使用 B 方案,統(tǒng)計(jì)并對比不同方案的轉(zhuǎn)化率、點(diǎn)擊量、留存率等指標(biāo),以判斷不同方案的優(yōu)劣并進(jìn)行決策。
上面圖示就是一個(gè)典型的A/B測試范例。
在A/B測試比較成熟的公司中,可能并不局限于只有A、B兩個(gè)版本,可能會(huì)有ABC測試、ABCD測試,甚至是ABCDE測試。
有一些情況,可能會(huì)出現(xiàn)比較特殊的A/B測試,比如說AAB測試,因?yàn)樾枰?yàn)證整個(gè)AB測試系統(tǒng)的準(zhǔn)確度,需要設(shè)置兩個(gè)對照組,所以叫AAB測試。
不管同時(shí)運(yùn)行幾個(gè)實(shí)驗(yàn),我們都可以將它們統(tǒng)稱為A/B測試,英文為ABtest或ABtest。
結(jié)合公開數(shù)據(jù)和行業(yè)深度調(diào)查,我們整理了行業(yè)A/B測試頻率概覽圖,其中可以看到,公司市值或體量與A/B測試頻率呈正相關(guān)關(guān)系。
像谷歌等大體量公司,它本身具有較為成熟的A/B測試系統(tǒng)與數(shù)據(jù)分析平臺,平均每周A/B測試就多達(dá)2000個(gè)A/B測試,其中包括一些相對復(fù)雜的實(shí)驗(yàn),如推薦算法A/B測試,也有相對簡單的A/B測試。至于國內(nèi)BAT等一線互聯(lián)網(wǎng)公司,它們每周也會(huì)進(jìn)行上百個(gè)A/B測試。
在與我們合作的大部分公司當(dāng)中,行業(yè)分布廣泛,比如互聯(lián)網(wǎng)金融、電商、O2O等廠商,它們自身沒有能力和精力自研一套成熟的A/B測試平臺,所以他們選擇與Testin A/B測試合作,將A/B測試服務(wù)快速應(yīng)用到業(yè)務(wù)中。
比如,某互聯(lián)網(wǎng)金融用戶,在使用Testin A/B測試前,每周只能做0.1個(gè)A/B測試,使用了云測A/B測試服務(wù)后,大大提升了A/B測試頻率,每周跑大概30個(gè)A/B測試實(shí)驗(yàn)。
當(dāng)然,在其每周30個(gè)實(shí)驗(yàn)中,約有1/3的實(shí)驗(yàn)會(huì)取得轉(zhuǎn)化率指標(biāo)提升5%-30%的效果,剩余2/3的實(shí)驗(yàn)效果并不理想,未取得較好的數(shù)據(jù)指標(biāo)提升。
通過這個(gè)例子,我們可以看出,大概2/3的產(chǎn)品設(shè)想并不符合預(yù)期,就是說轉(zhuǎn)化率其實(shí)沒有原始版本好。這個(gè)也是為什么需要A/B測試的根本原因,憑借產(chǎn)品直覺去做產(chǎn)品決策,但2/3的改進(jìn)并不是最優(yōu)解。
上述圖表展示的是微軟必應(yīng)搜索引擎A/B測試增長曲線,覆蓋Bing從2008年到2015年的時(shí)間的A/B測試實(shí)驗(yàn)增長情況。
可以看到,在Bing產(chǎn)品初期,每周A/B測試頻率維持在10~50個(gè),到2012年之后,Bing A/B測試每周頻率進(jìn)入快速增長。
圖表右下角綠色曲線,是Bing移動(dòng)端的A/B測試頻率增長曲線。通過該圖表,我們可以看到,Bing非常看重并認(rèn)真實(shí)施A/B測試實(shí)驗(yàn),以驅(qū)動(dòng)數(shù)據(jù)增長,促進(jìn)業(yè)務(wù)發(fā)展。
三、A/B測試應(yīng)用場景及案例
我們先看下A/B測試在移動(dòng)應(yīng)用中的四大應(yīng)用場景,分別是App、落地頁、后端算法和小程序。
APP端是目前移動(dòng)互聯(lián)網(wǎng)增長的主要載體,PC或H5(如常見的朋友圈刷屏活動(dòng))或者廣告投放落地頁面等則可以歸為落地頁,還有后端算法場景,如推薦算法、廣告算法、千人千面等等。
目前增長最快的應(yīng)用場景,則是小程序。
在不同的場景,A/B測試的側(cè)重點(diǎn)也有不同,但最核心目標(biāo)仍然都是圍繞業(yè)務(wù)的增長展開,也就是大家所熟悉的「北極星指標(biāo)」,或者是 DAU、MAU等在A/B測試中設(shè)定的具體目標(biāo)。
案例一:相機(jī)拍照類應(yīng)用
以Camera360為案例,它選用Testin A/B測試服務(wù)幫助其進(jìn)行產(chǎn)品優(yōu)化決策。
該案例是其產(chǎn)品商業(yè)化過程中的一個(gè)嘗試,希望提升商店中表情包或道具的付費(fèi)比例,但要完成付費(fèi)指標(biāo),首先要提升商店入口點(diǎn)擊率。
所以,他們設(shè)定了多個(gè)商店入口方案(更改圖標(biāo)樣式、文案),通過A/B測試來驗(yàn)證哪個(gè)方案可以最大化提升商店入口點(diǎn)擊率。
在驗(yàn)證過程中,他們也針對人群目標(biāo)做了相關(guān)定向測試,如日本、中國、韓國等區(qū)域,最終他們針對這一入口同時(shí)上線7~8個(gè)測試版本,通過A/B測試,將整體點(diǎn)擊率提升了80%左右。
案例二
本案例為互聯(lián)網(wǎng)理財(cái)行業(yè)的App,他們期望通過更改簽到按鈕的文案提高簽到人數(shù),從而提高留存率,按鈕文案由「簽到」改為「簽到賺錢」,并進(jìn)行A/B測試,為A、B版本分配了各5%的流量。
在經(jīng)過測試后發(fā)現(xiàn)新版本的簽到次數(shù)比原始版本簽到次數(shù)提高4.17%,其中95%置信區(qū)間結(jié)果顯示小范圍人群的試驗(yàn)結(jié)果推廣到全量用戶之后,有95%概率獲得1.7% 至 6.6%的提升;p-value小于0.05,顯示新老版本有顯著統(tǒng)計(jì)差異,Power 為100%,說明統(tǒng)計(jì)功效顯著。
通過這次簡單的A/B測試,就極大提升了App留存率。
本次測試,也借助Testin A/B測試的可視化功能,直接修改相關(guān)元素屬性就實(shí)現(xiàn)了對照功能,無需開發(fā)人員介入。
那產(chǎn)品什么時(shí)候需要A/B測試呢?
我們知道進(jìn)行A/B測試需要成本,比如需要開發(fā)多套版本,需要搭建可用的A/B測試及數(shù)據(jù)分析平臺等。
從投入產(chǎn)出比考慮,進(jìn)行A/B測試平臺有2個(gè)必要條件,一是產(chǎn)品決策影響大,二是產(chǎn)品方案選擇困難。
如果某決策對產(chǎn)品影響很大,但選擇不困難,則沒有必要進(jìn)行A/B測試,比方是否決定給App增加微信及第三方登錄方式,這對產(chǎn)品影響很大但決策并不困難,因?yàn)闃I(yè)界已有常見的解決方案。
再比方說,添加某很細(xì)小的功能,且該功能入口極深、用戶量不大,那么A/B測試優(yōu)先級也并不高。只有當(dāng)一個(gè)產(chǎn)品決策同時(shí)滿足影響大和選擇難這兩個(gè)條件的時(shí)候,才最適合進(jìn)行A/B測試。
拿我們自身進(jìn)行的測試來說,我們會(huì)基于功能影響大小、選擇困難程度,對要做測試的功能做好優(yōu)先級排序,然后判斷哪些功能要做A/B測試。
四、A/B測試落地三要素
通過與我們的合作伙伴,如自如、36氪、子彈短信或51信用卡等眾多增長團(tuán)隊(duì)交流,我們發(fā)現(xiàn)A/B測試做到落地有三大關(guān)鍵要素:
- 第一,人的因素,或者說整個(gè)團(tuán)隊(duì)的思維習(xí)慣、思維方式。
- 第二,業(yè)務(wù)流程,就是增長工作流程。
- 第三,工具。
展開來說,在「人」的角度上,要求整個(gè)團(tuán)隊(duì)具備數(shù)據(jù)驅(qū)動(dòng)增長、A/B測試驅(qū)動(dòng)決策的思維習(xí)慣,這是最重要的事情。
同時(shí),如果增長或產(chǎn)品團(tuán)隊(duì)負(fù)責(zé)人本身不具備這種意識,認(rèn)為A/B測試無關(guān)緊要,比較依賴經(jīng)驗(yàn)進(jìn)行產(chǎn)品優(yōu)化決策,那么A/B測試做起來也很困難。
對APP也好,包括現(xiàn)在的小程序也好,新型產(chǎn)品層出不窮,產(chǎn)品面對的競爭也異常激烈。加之目前互聯(lián)網(wǎng)流量紅利期逐漸結(jié)束,獲客成本增加,如果想繼續(xù)獲得業(yè)務(wù)增長,目前最有效的辦法就是落地A/B測試、以數(shù)據(jù)驅(qū)動(dòng)增長這一路徑。
行業(yè)發(fā)展趨勢決定所有團(tuán)隊(duì)都會(huì)慢慢遷移到用科學(xué)的實(shí)驗(yàn)進(jìn)行增長這條路上來,即使你現(xiàn)在的團(tuán)隊(duì)推進(jìn)A/B測試?yán)щy,但是我相信不遠(yuǎn)的將來,A/B測試將是最重要的產(chǎn)品增長驅(qū)動(dòng)力。
我曾與較多歐美增長同行進(jìn)行過深入交流,有一個(gè)很深感受就是他們的互聯(lián)網(wǎng)企業(yè)中 A/B測試氛圍更強(qiáng),主要因?yàn)槊绹斯こ杀鞠鄬^高,他們特別注重投入產(chǎn)出比,所以他們很早進(jìn)入到精細(xì)化運(yùn)營階段。
在業(yè)務(wù)流程上:
- 第一,需要注意你的產(chǎn)品是什么形態(tài),是依托APP、小程序、公眾號還是Web網(wǎng)站。不同的業(yè)務(wù)場景,A/B測試落地方案也會(huì)不一樣。
- 第二,要考慮A/B測試是否很好融入到了產(chǎn)品迭代或增長團(tuán)隊(duì)工作流程中去,最佳實(shí)踐就是做到將整個(gè)產(chǎn)品優(yōu)化迭代流程、發(fā)版節(jié)奏與A/B測試緊耦合,形成流水線作業(yè),這也是BAT等公司能夠把A/B測試每周頻率做到那么高的原因。
在工具方面,一種是自研,另外一種是使用第三方服務(wù)。
自研的話,在可控性、業(yè)務(wù)耦合方面有一定的優(yōu)越性,但對一般企業(yè)來講,其研發(fā)成本、人力成本很高,開發(fā)A/B測試服務(wù)還涉及到較為嚴(yán)格的數(shù)據(jù)統(tǒng)計(jì),需要配置專業(yè)的數(shù)據(jù)分析師。
如果使用目前市面上的第三方工具,比如Testin A/B測試服務(wù),可以最大化降低成本、加速業(yè)務(wù)落地A/B測試服務(wù)。
比如,某小程序用戶當(dāng)天接入Testin A/B測試服務(wù)后,當(dāng)天就運(yùn)行起三個(gè)A/B測試實(shí)驗(yàn)。無論是自研還是使用第三方工具,關(guān)鍵在于適合自身團(tuán)隊(duì)。
五、A/B測試最佳流程實(shí)踐
A/B測試最佳流程,可分成四個(gè)步驟:
- 分析數(shù)據(jù):分析現(xiàn)有原始版本的各項(xiàng)數(shù)據(jù)指標(biāo),如注冊轉(zhuǎn)化率等,比如說注冊轉(zhuǎn)化率僅有10%,針對這一轉(zhuǎn)化率提出想法;
- 提出想法:比方說要改進(jìn)注冊流程,之前用戶需要輸入短信校驗(yàn)碼,計(jì)劃改成圖片校驗(yàn)碼,形成改進(jìn)備選方案。有了該基本假設(shè)后,預(yù)估大概率可以提升轉(zhuǎn)化率;
- 重要性排序:限于團(tuán)隊(duì)資源有限,無法把所有需求想法全部都去驗(yàn)證,這就需要做重要性排序,選擇最重要的這幾個(gè)改進(jìn)方案去做A/B測試,接著進(jìn)入第四步;
- A/B測試:在這個(gè)過程中,我們要監(jiān)測A/B測試數(shù)據(jù),結(jié)果一般有兩種,一是數(shù)據(jù)證明實(shí)驗(yàn)無效,一是證明實(shí)驗(yàn)有效。我們經(jīng)過大量測試發(fā)現(xiàn),大部分進(jìn)行的A/B測試實(shí)驗(yàn),1/3被證明有效, 2/3被證明無效(與原始版本效果差別不大,或者比原始版本效果還壞)。
這里需要大家注意,不是所有的實(shí)驗(yàn)都會(huì)被證明對指標(biāo)增長有顯著效果,如果是這樣,我們就沒有必要進(jìn)行實(shí)驗(yàn)了。
如果遇到這種情況,需要告訴自己的團(tuán)隊(duì)成員不要灰心,正因?yàn)槟承?shí)驗(yàn)被證明無效,我們才會(huì)找到有效的增長方式。
實(shí)驗(yàn)失敗是大概率事件,我們最好的辦法就是增加測試頻率、持續(xù)測試,而非淺嘗輒止,又回到經(jīng)驗(yàn)主義決策的老路上。
如果你的團(tuán)隊(duì)從來沒有做過A/B測試,有三點(diǎn)建議給到大家:
- 從最簡單的文案A/B測試開始,比如說測試關(guān)鍵按鈕中不同文案的轉(zhuǎn)化率;
- 多做團(tuán)隊(duì)間的經(jīng)驗(yàn)分享,多分享你的成功經(jīng)驗(yàn),有效果的事情大家都愿意嘗試;不要天天去分享失敗的經(jīng)驗(yàn),如果過多分享失敗經(jīng)驗(yàn),會(huì)讓你包括你的團(tuán)隊(duì)對A/B測試產(chǎn)生質(zhì)疑,影響團(tuán)隊(duì)士氣;
- 可以優(yōu)先使用第三方免費(fèi)的A/B測試工具,比如Testin A/B測試,目前支持App、Web/H5、小程序。
六、企業(yè)A/B測試成熟度模型
上面介紹了落地A/B測試的三大關(guān)鍵因素,以及A/B測試的最佳實(shí)踐流程。在這部分,為大家分享企業(yè)A/B測試成熟度模型。
我們把企業(yè)A/B測試分成四個(gè)階段,分別是起步階段、成長階段、成熟階段和大規(guī)模應(yīng)用階段。該能力的成熟度最核心指標(biāo),就是每周能做多少個(gè)A/B測試。
處于起步階段,平均每周能做0~1個(gè)A/B測試,整個(gè)組織架構(gòu)處于開始嘗試A/B測試階段,但內(nèi)部沒有成型的A/B測試實(shí)驗(yàn)平臺,仍使用最簡單的分流方式和數(shù)據(jù)分析方法進(jìn)行實(shí)驗(yàn)。
此時(shí)的A/B測試并不是一個(gè)標(biāo)準(zhǔn)的A/B測試,從實(shí)驗(yàn)評價(jià)體系角度來看,已經(jīng)設(shè)定一個(gè)最基本的指標(biāo),比如說轉(zhuǎn)化率,但仍沒有體系化。
何為體系化指標(biāo)?也就是從單一指標(biāo)演進(jìn)為多維度指標(biāo)體系,系統(tǒng)跟蹤實(shí)驗(yàn)對產(chǎn)品的多方面影響。
第三個(gè)階段就是相對比較成熟的階段,這個(gè)時(shí)候每周能做到3~10個(gè)測試,A/B測試已經(jīng)成為產(chǎn)品迭代流程的一部分,并需要可視化A/B測試,后端A/B測試等高級功能,以便滿足多樣的A/B測試需求。
在成熟和大規(guī)模應(yīng)用階段,提到了一個(gè)名詞OEC。OEC,可以理解成綜合評價(jià)指標(biāo),可能是復(fù)合型指標(biāo),在很多單項(xiàng)指標(biāo)通過加權(quán)平均后得到。 通過OEC的設(shè)定,指導(dǎo)整個(gè)組織的業(yè)績發(fā)展。
七、A/B測試系統(tǒng)設(shè)計(jì)能力
上面分享了如何落地A/B測試。接下來,跟大家分享下設(shè)計(jì)一個(gè)典型的A/B測試系統(tǒng),需要具備哪幾點(diǎn)能力或特征:
1. 科學(xué)流量分割
包括唯一性、均勻性、靈活性、定向性及分層分流。
- 唯一性是指通過精準(zhǔn)且高效的Hash算法,確保單個(gè)用戶每次登錄應(yīng)用時(shí)被分到的試驗(yàn)版本是唯一的;
- 均勻性,則是確保分流人群,各維度分配比例均勻;
- 靈活性,則需要支持用戶隨時(shí)在實(shí)驗(yàn)的進(jìn)行過程中,調(diào)節(jié)實(shí)驗(yàn)版本之間的流量分配比例;
- 定向性,則是可以根據(jù)用戶標(biāo)簽來實(shí)現(xiàn)精準(zhǔn)定向分流,如根據(jù)用戶設(shè)備標(biāo)簽及其他自定義標(biāo)簽特定分流;
- 分層分流,則可以滿足并行進(jìn)行大量A/B測試需求。
這里重點(diǎn)介紹下為什么需要分層流量分割機(jī)制。如果沒有分層流量機(jī)制,則存在如下限制:
- 每個(gè)用戶最多只能參加一個(gè)A/B測試實(shí)驗(yàn)
- 多個(gè)實(shí)驗(yàn)不能同時(shí)使用全體用戶進(jìn)行測試,可能因?yàn)槿巳焊采w度不夠高導(dǎo)致結(jié)果偏差每個(gè)實(shí)驗(yàn)的可用實(shí)驗(yàn)流量受限于其他正在進(jìn)行的實(shí)驗(yàn),缺乏靈活的流量分配機(jī)制
有了分層流量分割機(jī)制,就可以很好地滿足并行進(jìn)行不同業(yè)務(wù)或不同場景,或者不同產(chǎn)品模塊之間的A/B測試需求。
2. 科學(xué)統(tǒng)計(jì)算法
- 科學(xué)統(tǒng)計(jì),使用科學(xué)的統(tǒng)計(jì)分析方法來對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,并給出可靠的試驗(yàn)結(jié)果;
- 區(qū)間估計(jì),給出95%置信區(qū)間,避免點(diǎn)估計(jì)帶來的決斷風(fēng)險(xiǎn);統(tǒng)計(jì)顯著性判斷,通過p-value來判斷不同實(shí)驗(yàn)版本之間差異顯著性;統(tǒng)計(jì)功效判斷,通過Power來判斷不同實(shí)驗(yàn)版本統(tǒng)計(jì)功效是否充足;精益分析,對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行去噪音處理,去除噪音數(shù)據(jù),以提高統(tǒng)計(jì)結(jié)果的質(zhì)量。
上面就是基本的分享內(nèi)容,限于篇幅,更多A/B測試后面有機(jī)會(huì)再與大家分享。
作者:陳冠誠,Testin副總裁、Testin A/B測試業(yè)務(wù)負(fù)責(zé)人。師從歐洲科學(xué)院院士Per Stenstrom教授,發(fā)表過6篇大數(shù)據(jù)國際論文和8項(xiàng)國際專利,為美圖、宜人財(cái)富等企業(yè)搭建了A/B測試驅(qū)動(dòng)增長的數(shù)據(jù)體系。公眾號:云測數(shù)據(jù)(testindata),數(shù)據(jù)驅(qū)動(dòng)增長的堅(jiān)定實(shí)行者
本文由 @陳冠誠 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議
相關(guān)干貨可以在哪里看呢?很感興趣!
這篇軟文寫的不錯(cuò)
這是我們基于自己的分享實(shí)踐,謝謝稱贊啦~
從今年開始做增長開始,一直踐行A/B測試的理念,這篇文章讓我對A/B Test有了更加清晰的認(rèn)識。
不管做什么工作,數(shù)據(jù)一定是我們依托的基礎(chǔ),甚至是判斷方法正確與否的重要指標(biāo),A/B測試可以避免我們一股腦門,同時(shí)也可以檢驗(yàn)不確定性和可控性。
多謝~ 后面繼續(xù)我們分享干貨!