A/B 測試中 12 個常見的誤區(qū)(上)
文章為大家梳理一些運用A/B 測試時12個常見的誤區(qū),本文為上篇,一起看看~
A/B 測試是一項很有趣的測試內(nèi)容,使用者可以通過優(yōu)質(zhì)的工具去完成產(chǎn)品中的 A/B 測試。但其實,A/B 測試并不僅僅是建立一個測試,很多公司在使用 A/B 測試時都存在一定的誤區(qū),都在不經(jīng)意間浪費著時間和金錢且不自知。
下面,本文將為大家梳理一些運用A/B 測試時常見的誤區(qū):
一、太早停止A/B 測試
如果樣本量足夠大,統(tǒng)計顯著性是版本 A 優(yōu)于版本 B 的最好證據(jù),50% 的統(tǒng)計顯著性代表一種隨機(jī)的結(jié)果。如果你只要求有 50% 的統(tǒng)計顯著性,那么你可能要考慮離職了,因為其實這個數(shù)字達(dá)到 75% 也不能說明什么。
任何一個經(jīng)驗豐富的測試人員都有過這樣的經(jīng)歷,你通過 A/B 測試去檢測你的產(chǎn)品功能,最終將一個置信度達(dá)到 80% 的產(chǎn)品推向各大市場,但最終發(fā)現(xiàn),市場卻并不買賬。于是你想,那下次把數(shù)字達(dá)到90% 怎么樣?這樣就會很好了吧?其實比達(dá)到 90% 更重要的是,你要找到其中的真相。
真相>勝利
作為一個專業(yè)的職場人士,你的工作就是找出真相。你必須先把自我放在一邊,執(zhí)著于你的假設(shè)或設(shè)計是人之常情,如果當(dāng)你的假設(shè)沒有出現(xiàn)顯著的差異性時,這可能會對你造成很嚴(yán)重的打擊。真理高于一切,否則一切都失去了意義。
這里有一個常見的場景,即使對于經(jīng)常進(jìn)行 A/B 測試的公司也是如此,公司進(jìn)行一個又一個的測試,持續(xù)了 12 個月,好不容易挑選出“獲勝者”,然后將它們推出市場。結(jié)果一年后發(fā)現(xiàn),他們網(wǎng)站的轉(zhuǎn)化率和剛開始時一樣……
為什么?基本是因為測試停止得太早或樣本量太小。這里有一個關(guān)于何時停止 A/B 測試解釋,簡而言之需要滿足這三個條件,才能說明測試已經(jīng)完成:
- 足夠的樣本大小。實驗要有足夠的被試參與,你需要為你的 A/B 測試預(yù)先估算出足夠的樣本量。
- 要運行多個銷售周期(通常為 2-4 周)。如果你只是在幾天內(nèi)就停止測試(或者在達(dá)到所需的樣本量之后就停止),那么你獲得的這個樣本結(jié)果,并不具有代表性。
- 統(tǒng)計學(xué)的顯著性至少要達(dá)到 95%(p≤0.05)。值得注意的是,p 值沒有辦法告訴我們 B 比 A 的方案好。
這里有一個經(jīng)典的例子來說明我的觀點,下表為開始測試兩天后的結(jié)果:
圖 1. 圖片來源于網(wǎng)絡(luò)
我構(gòu)建的新版本損失慘重,我構(gòu)建的版本并沒有太大的優(yōu)勢,而我的客戶也已經(jīng)開始準(zhǔn)備停用這個方案。但是,由于樣本量太小(每次變化只有 100 多次訪問),通過我的堅持不懈,這是 10 天后的結(jié)果:
圖 2. 圖片來源于網(wǎng)絡(luò)
你沒看錯,我制造的版本現(xiàn)在以 95% 的置信率獲勝。
有些A / B測試結(jié)束得過早,這就需要我們仔細(xì)檢查各種數(shù)據(jù)。而最糟糕的事情就是,因為不準(zhǔn)確的數(shù)據(jù),讓你損失了大量的時間與金錢。
需要多大的樣本量?
通過上面的介紹,我們都不希望根據(jù)較小的樣本量得出結(jié)論。理想的狀態(tài)下,一個好的測試版本最好能發(fā)生至少 350-400 次轉(zhuǎn)換數(shù)據(jù)。但是,這個數(shù)字不是定值。我們不要被一個號碼困住,因為我們手中的是科學(xué),而不是魔術(shù)。
所以,你一定要提前估算出測試所需要的樣本量。那么即使這樣做了,但置信度還是低于 95% 怎么辦?那么可以從細(xì)分領(lǐng)域下手,但你仍需要為每個測試的細(xì)節(jié)提供足夠的樣本量。無論如何,你都需要不斷修改你的假設(shè)并進(jìn)行新的測試。
二、測試的單位不是“周”
假設(shè)你有一個高流量網(wǎng)站,你在三天內(nèi)實現(xiàn)了 98% 的置信度,并且每次都發(fā)生了至少 350 次的轉(zhuǎn)換數(shù)據(jù)。
這樣能算完成了測試嗎?不,我們需要排除周期性因素并測試整整一周。如果你從上周一開始測試,那么這個測試需要在下周一停止。
為什么?因為你的轉(zhuǎn)化率可能會因“今天是星期幾”而有很大差異。如果你一次不測試整整一周,那么你的結(jié)果就會出現(xiàn)偏差。所以,你需要以“周”為單位,在你的網(wǎng)站上運行“每日轉(zhuǎn)化次數(shù)”的報告,觀察到底能產(chǎn)生多少波動。
下面是一個例子:
圖 3. 圖片來源于網(wǎng)絡(luò)
你看到上表中的內(nèi)容了嗎?
星期四的收入比星期六和星期日的總和還多出 2 倍,星期四的轉(zhuǎn)換率幾乎是星期六的 2 倍。如果我們沒有以“周”為單位進(jìn)行測試,那么結(jié)果將是不準(zhǔn)確的,所以,必須開始一次運行七天的測試。如果在這七天內(nèi)沒有出現(xiàn)差異顯著的結(jié)果,則再運行七天。如果 14 天都沒有達(dá)到,那么就運行到第 21 天。
多數(shù)情況下,你需要至少運行兩周的測試(我的個人最低時間是四周,因為兩周通常是不準(zhǔn)確的),然后,如果你需要延長測試時間,則應(yīng)用七天規(guī)則逐步疊加。
注意外部因素
如果你在雙十一等一些購物季獲得了良好的測試結(jié)果,那么你一定要在購物季結(jié)束后再次進(jìn)行重復(fù)的測試。另外,如果你的公司鋪設(shè)了一些電視廣告或者其他大型活動,都可能會影響你的測試結(jié)果。你必須要了解你的公司正在做什么,因為外部因素會影響到你的測試結(jié)果。
三、沒有足夠的流量也進(jìn)行 A/B 測試
如果你每月只能完成一次或兩次銷售,然后進(jìn)行測試,結(jié)果顯示 B 方案比 A 方案的轉(zhuǎn)化率高 15%,這樣的結(jié)果準(zhǔn)確嗎?
當(dāng)然不。許多人都喜歡用 A / B 測試來驗證假設(shè),但流量較小的情況下,即使版本 B 的效果再好,也可能需要數(shù)月才能達(dá)到統(tǒng)計顯著性。
不基于假設(shè)就進(jìn)行測試
我喜歡意大利面,但我對意大利面條柔韌度的測試卻沒多大興趣,比如將它扔在墻上,看它是否粘住墻壁?
這其實是一種隨意的測試想法,而測試這種隨機(jī)想法需要付出巨大代價,它會浪費你寶貴的時間和流量,所以永遠(yuǎn)不要那樣做。你需要有一個假設(shè)。假設(shè)的提出要根據(jù)有限的證據(jù),這個證據(jù)可以通過實驗去被證明,并且作為一個新的研究起點。
如果你在沒有明確假設(shè)的情況下進(jìn)行 A/B 測試,然后發(fā)現(xiàn) B 方案的轉(zhuǎn)化率高了 15%,可是你從中學(xué)到了什么?
什么沒有。我們需要了解我們的受眾,獲得合理的假設(shè),這將有助于我們更好地改進(jìn)貼合實際的測試。
四、不利用大數(shù)據(jù)分析平臺
測試的平均值往往包含著謊言。如果 A 方案比 B 方案的轉(zhuǎn)化率高出 10%,但也并不能代表全部。你需要將其中的指標(biāo)再次進(jìn)行分割測試,去分析其中的各項細(xì)分指標(biāo)。你可以使用一些優(yōu)質(zhì)的大數(shù)據(jù)分析工具,利用各種分析模型,對數(shù)據(jù)進(jìn)行細(xì)致地分析和處理。
圖 4. 圖片來源于神策數(shù)據(jù)
五、為了不值得的問題進(jìn)行測試
你測試過用戶喜歡什么顏色,對嗎?
請趕快停止吧。世界上哪里有最好的顏色,因為顏色始終與視覺層次結(jié)構(gòu)有關(guān)。當(dāng)然,你可以在網(wǎng)上找到有人通過測試顏色從而獲得收益,但這些結(jié)果很多都是顯而易見的,所以,不要把時間浪費在這些測試上。
余下的 6 個誤區(qū),未完待續(xù),歡迎大家持續(xù)關(guān)注。
原文來源:https://conversionxl.com
原文作者:Peep Laja
翻譯:研如玉,神策數(shù)據(jù)·用戶行為洞察研究院 公眾號(ID:SDResearch)
本文由 @研如玉 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
測試用例
前文描述的說會收到星期幾的因素所影響數(shù)據(jù),其實是不正確的,因為既然是做AB Test,他的對比因素是相同的
也就是說,實驗組和對照組都是星期一 或 星期六等,判斷一個AB平臺是否準(zhǔn)確,具有可參考意義,要看樣本的分流是否平均
還要根據(jù)樣本數(shù),設(shè)定置信區(qū)間,當(dāng)樣本數(shù)小的情況下,數(shù)據(jù)波動的范圍會較大,但如果是非常大的樣本數(shù),比如100萬對比100萬的數(shù)據(jù),即使是1-2天,0.1%的數(shù)據(jù)也是顯著置信的~
嗯嗯 是把可能出現(xiàn)的誤區(qū)都提出來了呢 ~