6個(gè)要點(diǎn),打造有效的A/B 測(cè)試
管理者十分看重市場(chǎng)營(yíng)銷的價(jià)值,花費(fèi)大量的精力投入到A/B測(cè)試的研究中,但是收效甚微。究竟是什么原因?qū)е铝艘粓?chǎng)垃圾A/B測(cè)試,我們又該如何改進(jìn)呢,看看筆者是怎么說(shuō)的吧。
在這個(gè)以數(shù)字為先的廣告世界,許多領(lǐng)導(dǎo)者都渴望將營(yíng)銷、市場(chǎng)作為一門科學(xué)來(lái)管理。于是,他們用精確、測(cè)量、數(shù)據(jù)這些科學(xué)的字眼來(lái)說(shuō)話,他們聘請(qǐng)專業(yè)人士,他們教團(tuán)隊(duì)用結(jié)構(gòu)化的實(shí)驗(yàn)來(lái)驗(yàn)證他們的假設(shè)……
然而,除了十分專業(yè)的產(chǎn)品經(jīng)理以外,大多數(shù)人并不知道如何用科學(xué)、正面的方法論去研究A/B測(cè)試的問(wèn)題,盡管他們進(jìn)行了所有“成功”的A/B測(cè)試,但對(duì)于具體的業(yè)務(wù)指標(biāo)并沒(méi)有多大改善。
為什么會(huì)這樣呢?相關(guān)人員到底在A/B測(cè)試中學(xué)到什么?
我認(rèn)為,從市場(chǎng)營(yíng)銷的角度來(lái)談,在設(shè)計(jì)一輪A/B測(cè)試時(shí),必須要記住以下六個(gè)要點(diǎn):
一、統(tǒng)計(jì)顯著性
雖然這幾個(gè)字看上去毫無(wú)趣味,但大多數(shù)營(yíng)銷人員不能正確定義統(tǒng)計(jì)的意義。
當(dāng)我們開(kāi)始一個(gè)A/B測(cè)試——“我正在測(cè)試的廣告之間沒(méi)有性能差異?!?/p>
然后,我們運(yùn)行測(cè)試并收集數(shù)據(jù),我們希望這些數(shù)據(jù)將反饋給我們信息,并得出相反的結(jié)論,即存在性能差異。
但從技術(shù)上講,問(wèn)題是——“假設(shè)最初的假設(shè)成立,任何性能上的差異都是由隨機(jī)因素造成的,那么能觀察到實(shí)際差異的可能性有多大?”
所以,計(jì)算p值很棘手,但需要理解的重要一點(diǎn)是:p值越低,我們就越有信心得出我們測(cè)試的廣告之間存在真正差異的結(jié)論。具體地說(shuō),p值為0.05意味著有5%的可能性,觀察到的性能差異將由于純粹的隨機(jī)因素而產(chǎn)生。
然而重要的是,要學(xué)會(huì)理解這只是一個(gè)社會(huì)慣例所使用的標(biāo)簽而已。在一個(gè)數(shù)據(jù)匱乏、沒(méi)有電腦的時(shí)代,這可以說(shuō)是一個(gè)合理的標(biāo)準(zhǔn),但在今天的世界,它可能已經(jīng)被打破了。
二、統(tǒng)計(jì)顯著性≠實(shí)際顯著性
統(tǒng)計(jì)顯著性分析雖然可以幫助市場(chǎng)人員評(píng)估廣告之間是否存在性能差異,但它并沒(méi)有說(shuō)明這種差異在實(shí)際應(yīng)用中有多大或有多重要。有了足夠的數(shù)據(jù),無(wú)關(guān)緊要的差異可被視為“具有統(tǒng)計(jì)意義”。
例如:假設(shè)你用兩個(gè)稍微不同的廣告運(yùn)行一個(gè)A/B測(cè)試。
你為每個(gè)廣告投放了1,000,000個(gè)展示,然后你發(fā)現(xiàn)版本A獲得1,000個(gè)展示,而版本B獲得1,100個(gè)展示。使用相關(guān)的A/B測(cè)試計(jì)算方法,你將看到這是一個(gè)“具有統(tǒng)計(jì)意義”的結(jié)果——p值為0.01,遠(yuǎn)遠(yuǎn)超過(guò)通常的0.05閾值。
但這一結(jié)果是否具有實(shí)際意義?
數(shù)字代表著一個(gè)進(jìn)步,但在大多數(shù)營(yíng)銷環(huán)境中很難改變游戲規(guī)則。記住,有時(shí)候需要成千上萬(wàn)次的投放才能得出這個(gè)結(jié)論,而這個(gè)結(jié)論本身就很費(fèi)錢。
我對(duì)營(yíng)銷領(lǐng)導(dǎo)者的實(shí)際建議是,要學(xué)會(huì)接受這樣的事實(shí)——市場(chǎng)與產(chǎn)品不同,A/B測(cè)試中微小的調(diào)整可能很難會(huì)產(chǎn)生巨大影響。
要學(xué)會(huì)重新定義測(cè)試在市場(chǎng)營(yíng)銷中所扮演的角色,使你的團(tuán)隊(duì)成員將重要性分析理解為一種比較有意義的理念與方法,而不是定義成功。
三、謹(jǐn)防“偏見(jiàn)”
如何理解那些我們讀過(guò)的、并與我們的團(tuán)隊(duì)分享過(guò)的、看起來(lái)微不足道的A/B測(cè)試帶來(lái)的巨大性能收益的文章呢?
比如:“如何添加逗號(hào)提高30%的收入”“這個(gè)表情符號(hào)改變了我的生意”等等。
雖然肯定會(huì)發(fā)生這樣的情況,但它們的數(shù)量和距離都比互聯(lián)網(wǎng)搜索所能讓你相信的要少得可憐。
在市場(chǎng)營(yíng)銷領(lǐng)域,這個(gè)問(wèn)題被一些因素復(fù)雜化了:人們總是很輕易地認(rèn)為通過(guò)一些A/B測(cè)試,輕松取勝就在眼前。所以,他們當(dāng)然不會(huì)公布那些沒(méi)有產(chǎn)生有趣結(jié)果的實(shí)驗(yàn),也就容易造成一種分布偏見(jiàn)。我們不會(huì)看到或談?wù)撍蠥/B測(cè)試的結(jié)果,更何況一些測(cè)試運(yùn)行的結(jié)果根本就是無(wú)關(guān)緊要的。
所以,請(qǐng)記住,一些看起來(lái)好得令人難以置信的結(jié)果很可能是真的。但你需要這樣問(wèn)自己:他們進(jìn)行了多少次實(shí)驗(yàn)才得出如此驚人的結(jié)果?
不要因?yàn)橐獜?fù)制有價(jià)值的結(jié)果而感到壓力。相反,要把注意力集中在不引人注目但更重要的工作上,測(cè)試有意義的不同策略,并尋找具有實(shí)際意義的重大結(jié)果——這才是真正的價(jià)值所在。
四、小心p-hacking
數(shù)據(jù)是營(yíng)銷人員最好的朋友,但它同時(shí)還帶著一個(gè)警告標(biāo)簽,因?yàn)槟銚碛械臄?shù)據(jù)維度越多,你就越有可能以某種方式陷入被稱為“p-hacking”的反模式。p-hacking指的是數(shù)據(jù)分析能夠從純?cè)肼曋挟a(chǎn)生看似“具有統(tǒng)計(jì)意義”的結(jié)果的某些方式。
最明目驚心的p-hacking形式,不過(guò)是不斷地進(jìn)行實(shí)驗(yàn),直到得到你想要的結(jié)果。記住,p值為0.05意味著觀察到的差異有5%的幾率是隨機(jī)產(chǎn)生的,如果你將同一個(gè)實(shí)驗(yàn)進(jìn)行20次,你應(yīng)該期望僅憑偶然就能得到一個(gè)“顯著”的結(jié)果。如果你有足夠的時(shí)間和動(dòng)力,你可以有效地保證在某一時(shí)刻取得顯著的成果。眾所周知,制藥公司為了讓一種藥物獲得FDA的批準(zhǔn)會(huì)做這樣的事情,但這可不是什么好事。
大多數(shù)營(yíng)銷團(tuán)隊(duì)永遠(yuǎn)不會(huì)做這么愚蠢的事情,但有一些更微妙的p-hacking形式需要注意。
例如:你針對(duì)受眾運(yùn)行兩個(gè)不同的廣告。但是,當(dāng)高層次的結(jié)果被證明不顯著時(shí),通常會(huì)發(fā)生的情況是——我們對(duì)數(shù)據(jù)進(jìn)行更深入的挖掘,以尋找更有趣的發(fā)現(xiàn)。
也許如果我們只看女性,我們會(huì)發(fā)現(xiàn)不同?我們看看不同年齡段的人呢?看看iPhone和Android用戶……
這種方式很容易分割數(shù)據(jù),但通常被認(rèn)為是一種很好的實(shí)踐方法。
在科學(xué)領(lǐng)域,這個(gè)問(wèn)題已經(jīng)通過(guò)一種叫做“預(yù)注冊(cè)”的實(shí)踐得到了解決。在這種實(shí)踐中,研究人員公布他們的研究計(jì)劃,包括他們希望進(jìn)行的數(shù)據(jù)分析,以便他們研究的消費(fèi)者能夠相信,結(jié)果不是在電子表格中合成的。而在市場(chǎng)營(yíng)銷中,我們通常不會(huì)公布我們的結(jié)果,但是我們應(yīng)該應(yīng)用這些最佳實(shí)踐。
五、在ROI 中包含實(shí)驗(yàn)成本
生活中一個(gè)經(jīng)常被忽視的事實(shí)是——A/B是免費(fèi)的。但其實(shí),它們需要花時(shí)間、精力和金錢來(lái)設(shè)計(jì)和執(zhí)行。
大多數(shù)A/B測(cè)試關(guān)注的是創(chuàng)造性,因?yàn)閺V告性能在很大程度上是由創(chuàng)造性驅(qū)動(dòng)的。大多數(shù)寫(xiě)在A/B測(cè)試上的東西就像從天上掉下來(lái)的創(chuàng)意一樣,你所需要做的就是測(cè)試,以確定哪種效果最好。
例如:假設(shè)你的總營(yíng)銷預(yù)算為25,000美元,而你正在嘗試決定是在單個(gè)廣告上花費(fèi)2千美元,還是在5種不同的變體廣告上花費(fèi)5萬(wàn)美元。如果我們假設(shè)你需要在每個(gè)廣告變體上花費(fèi)1美元,來(lái)測(cè)試其性能作為A/B測(cè)試的一部分,那么你需要獲勝的廣告比A/B測(cè)試的基線性能至少高出20%才是值得的。
20%可能聽(tīng)起來(lái)并不多,但是任何做過(guò)重要A/B測(cè)試的人都知道,這樣的收益并不容易獲得,特別是如果你在一個(gè)相對(duì)成熟的環(huán)境中進(jìn)行操作。所以,請(qǐng)記住,你的目標(biāo)是最大化廣告投資回報(bào)率,而不僅僅是為了實(shí)驗(yàn)而實(shí)驗(yàn)。預(yù)先運(yùn)行ROI計(jì)算,以確定你需要多大程度的改進(jìn),才能使你的A/B測(cè)試物有所值。
六、寫(xiě)在最后
科學(xué)的營(yíng)銷方法對(duì)該領(lǐng)域具有不可思議的價(jià)值。但營(yíng)銷人員經(jīng)常使用的一些方法和工具,可能只是膚淺的理解,最終浪費(fèi)了大量的時(shí)間、精力和金錢。為了避免重復(fù)這些錯(cuò)誤,并在相關(guān)問(wèn)題上取得一些有價(jià)值的進(jìn)步,相關(guān)人員必須學(xué)會(huì)從復(fù)雜或習(xí)以為常的錯(cuò)誤中,不斷吸取教訓(xùn),改善并提升。
原文作者:Nathan?Labenz
原文地址:https://martechtoday.com
譯者:研如玉,編譯過(guò)程中有所刪減。
本文由 @研如玉?翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!