日本不卡在线，四虎日韩久久，亚洲最新无码中文字幕一区，97久久婷婷国产综合亚洲，欧美成人精品第一区二区，国产精品露脸无码视频，国产一级片内射视频播，啊啊无码高清在线视频

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

A/B 測試中 12 個常見的誤區(qū)（上）

王瑞秋

2019-08-01

3 評論 4412 瀏覽 26 收藏

11 分鐘

文章為大家梳理一些運用A/B 測試時12個常見的誤區(qū)，本文為上篇，一起看看~

A/B 測試是一項很有趣的測試內(nèi)容，使用者可以通過優(yōu)質(zhì)的工具去完成產(chǎn)品中的 A/B 測試。但其實，A/B 測試并不僅僅是建立一個測試，很多公司在使用 A/B 測試時都存在一定的誤區(qū)，都在不經(jīng)意間浪費著時間和金錢且不自知。

下面，本文將為大家梳理一些運用A/B 測試時常見的誤區(qū)：

一、太早停止A/B 測試

如果樣本量足夠大，統(tǒng)計顯著性是版本 A 優(yōu)于版本 B 的最好證據(jù)，50% 的統(tǒng)計顯著性代表一種隨機(jī)的結(jié)果。如果你只要求有 50% 的統(tǒng)計顯著性，那么你可能要考慮離職了，因為其實這個數(shù)字達(dá)到 75% 也不能說明什么。

任何一個經(jīng)驗豐富的測試人員都有過這樣的經(jīng)歷，你通過 A/B 測試去檢測你的產(chǎn)品功能，最終將一個置信度達(dá)到 80% 的產(chǎn)品推向各大市場，但最終發(fā)現(xiàn)，市場卻并不買賬。于是你想，那下次把數(shù)字達(dá)到90% 怎么樣？這樣就會很好了吧？其實比達(dá)到 90% 更重要的是，你要找到其中的真相。

真相>勝利

作為一個專業(yè)的職場人士，你的工作就是找出真相。你必須先把自我放在一邊，執(zhí)著于你的假設(shè)或設(shè)計是人之常情，如果當(dāng)你的假設(shè)沒有出現(xiàn)顯著的差異性時，這可能會對你造成很嚴(yán)重的打擊。真理高于一切，否則一切都失去了意義。

這里有一個常見的場景，即使對于經(jīng)常進(jìn)行 A/B 測試的公司也是如此，公司進(jìn)行一個又一個的測試，持續(xù)了 12 個月，好不容易挑選出“獲勝者”，然后將它們推出市場。結(jié)果一年后發(fā)現(xiàn)，他們網(wǎng)站的轉(zhuǎn)化率和剛開始時一樣……

為什么？基本是因為測試停止得太早或樣本量太小。這里有一個關(guān)于何時停止 A/B 測試解釋，簡而言之需要滿足這三個條件，才能說明測試已經(jīng)完成：

足夠的樣本大小。實驗要有足夠的被試參與，你需要為你的 A/B 測試預(yù)先估算出足夠的樣本量。
要運行多個銷售周期(通常為 2-4 周)。如果你只是在幾天內(nèi)就停止測試（或者在達(dá)到所需的樣本量之后就停止），那么你獲得的這個樣本結(jié)果，并不具有代表性。
統(tǒng)計學(xué)的顯著性至少要達(dá)到 95%（p≤0.05）。值得注意的是，p 值沒有辦法告訴我們 B 比 A 的方案好。

這里有一個經(jīng)典的例子來說明我的觀點，下表為開始測試兩天后的結(jié)果：

A/B 測試中 12 個常見的誤區(qū)（上）

圖 1. 圖片來源于網(wǎng)絡(luò)

我構(gòu)建的新版本損失慘重，我構(gòu)建的版本并沒有太大的優(yōu)勢，而我的客戶也已經(jīng)開始準(zhǔn)備停用這個方案。但是，由于樣本量太小（每次變化只有 100 多次訪問），通過我的堅持不懈，這是 10 天后的結(jié)果：

A/B 測試中 12 個常見的誤區(qū)（上）

圖 2. 圖片來源于網(wǎng)絡(luò)

你沒看錯，我制造的版本現(xiàn)在以 95％的置信率獲勝。

有些A / B測試結(jié)束得過早，這就需要我們仔細(xì)檢查各種數(shù)據(jù)。而最糟糕的事情就是，因為不準(zhǔn)確的數(shù)據(jù)，讓你損失了大量的時間與金錢。

需要多大的樣本量？

通過上面的介紹，我們都不希望根據(jù)較小的樣本量得出結(jié)論。理想的狀態(tài)下，一個好的測試版本最好能發(fā)生至少 350-400 次轉(zhuǎn)換數(shù)據(jù)。但是，這個數(shù)字不是定值。我們不要被一個號碼困住，因為我們手中的是科學(xué)，而不是魔術(shù)。

所以，你一定要提前估算出測試所需要的樣本量。那么即使這樣做了，但置信度還是低于 95％怎么辦？那么可以從細(xì)分領(lǐng)域下手，但你仍需要為每個測試的細(xì)節(jié)提供足夠的樣本量。無論如何，你都需要不斷修改你的假設(shè)并進(jìn)行新的測試。

二、測試的單位不是“周”

假設(shè)你有一個高流量網(wǎng)站，你在三天內(nèi)實現(xiàn)了 98％的置信度，并且每次都發(fā)生了至少 350 次的轉(zhuǎn)換數(shù)據(jù)。

這樣能算完成了測試嗎？不，我們需要排除周期性因素并測試整整一周。如果你從上周一開始測試，那么這個測試需要在下周一停止。

為什么？因為你的轉(zhuǎn)化率可能會因“今天是星期幾”而有很大差異。如果你一次不測試整整一周，那么你的結(jié)果就會出現(xiàn)偏差。所以，你需要以“周”為單位，在你的網(wǎng)站上運行“每日轉(zhuǎn)化次數(shù)”的報告，觀察到底能產(chǎn)生多少波動。

下面是一個例子：

A/B 測試中 12 個常見的誤區(qū)（上）

圖 3. 圖片來源于網(wǎng)絡(luò)

你看到上表中的內(nèi)容了嗎？

星期四的收入比星期六和星期日的總和還多出 2 倍，星期四的轉(zhuǎn)換率幾乎是星期六的 2 倍。如果我們沒有以“周”為單位進(jìn)行測試，那么結(jié)果將是不準(zhǔn)確的，所以，必須開始一次運行七天的測試。如果在這七天內(nèi)沒有出現(xiàn)差異顯著的結(jié)果，則再運行七天。如果 14 天都沒有達(dá)到，那么就運行到第 21 天。

多數(shù)情況下，你需要至少運行兩周的測試（我的個人最低時間是四周，因為兩周通常是不準(zhǔn)確的），然后，如果你需要延長測試時間，則應(yīng)用七天規(guī)則逐步疊加。

注意外部因素

如果你在雙十一等一些購物季獲得了良好的測試結(jié)果，那么你一定要在購物季結(jié)束后再次進(jìn)行重復(fù)的測試。另外，如果你的公司鋪設(shè)了一些電視廣告或者其他大型活動，都可能會影響你的測試結(jié)果。你必須要了解你的公司正在做什么，因為外部因素會影響到你的測試結(jié)果。

三、沒有足夠的流量也進(jìn)行 A/B 測試

如果你每月只能完成一次或兩次銷售，然后進(jìn)行測試，結(jié)果顯示 B 方案比 A 方案的轉(zhuǎn)化率高 15%，這樣的結(jié)果準(zhǔn)確嗎？

當(dāng)然不。許多人都喜歡用 A / B 測試來驗證假設(shè)，但流量較小的情況下，即使版本 B 的效果再好，也可能需要數(shù)月才能達(dá)到統(tǒng)計顯著性。

不基于假設(shè)就進(jìn)行測試

我喜歡意大利面，但我對意大利面條柔韌度的測試卻沒多大興趣，比如將它扔在墻上，看它是否粘住墻壁？

這其實是一種隨意的測試想法，而測試這種隨機(jī)想法需要付出巨大代價，它會浪費你寶貴的時間和流量，所以永遠(yuǎn)不要那樣做。你需要有一個假設(shè)。假設(shè)的提出要根據(jù)有限的證據(jù)，這個證據(jù)可以通過實驗去被證明，并且作為一個新的研究起點。

如果你在沒有明確假設(shè)的情況下進(jìn)行 A/B 測試，然后發(fā)現(xiàn) B 方案的轉(zhuǎn)化率高了 15％，可是你從中學(xué)到了什么？

什么沒有。我們需要了解我們的受眾，獲得合理的假設(shè)，這將有助于我們更好地改進(jìn)貼合實際的測試。

四、不利用大數(shù)據(jù)分析平臺

測試的平均值往往包含著謊言。如果 A 方案比 B 方案的轉(zhuǎn)化率高出 10％，但也并不能代表全部。你需要將其中的指標(biāo)再次進(jìn)行分割測試，去分析其中的各項細(xì)分指標(biāo)。你可以使用一些優(yōu)質(zhì)的大數(shù)據(jù)分析工具，利用各種分析模型，對數(shù)據(jù)進(jìn)行細(xì)致地分析和處理。

A/B 測試中 12 個常見的誤區(qū)（上）

圖 4. 圖片來源于神策數(shù)據(jù)

五、為了不值得的問題進(jìn)行測試

你測試過用戶喜歡什么顏色，對嗎？

請趕快停止吧。世界上哪里有最好的顏色，因為顏色始終與視覺層次結(jié)構(gòu)有關(guān)。當(dāng)然，你可以在網(wǎng)上找到有人通過測試顏色從而獲得收益，但這些結(jié)果很多都是顯而易見的，所以，不要把時間浪費在這些測試上。

余下的 6 個誤區(qū)，未完待續(xù)，歡迎大家持續(xù)關(guān)注。

原文來源：https://conversionxl.com

原文作者：Peep Laja

翻譯：研如玉，神策數(shù)據(jù)·用戶行為洞察研究院公眾號（ID：SDResearch）

本文由 @研如玉翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自Unsplash，基于CC0協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

王瑞秋

神策數(shù)據(jù) 內(nèi)容營銷

37篇作品 455125總閱讀量

告別營銷八股文，重新認(rèn)識內(nèi)容營銷

05-145764 瀏覽

從數(shù)據(jù)源到數(shù)據(jù)可視化的全鏈路解析

09-136090 瀏覽

電信運營商的生態(tài)棋局｜To B 生態(tài)邏輯

03-102762 瀏覽

UX流程全景（2）：設(shè)計調(diào)研篇

12-272202 瀏覽

營銷體系及產(chǎn)品認(rèn)知提升——360度看營銷系統(tǒng)

03-276669 瀏覽

評論

汪仔6541

測試用例

最近來自河北回復(fù)
Eric

前文描述的說會收到星期幾的因素所影響數(shù)據(jù)，其實是不正確的，因為既然是做AB Test，他的對比因素是相同的
也就是說，實驗組和對照組都是星期一或星期六等，判斷一個AB平臺是否準(zhǔn)確，具有可參考意義，要看樣本的分流是否平均
還要根據(jù)樣本數(shù)，設(shè)定置信區(qū)間，當(dāng)樣本數(shù)小的情況下，數(shù)據(jù)波動的范圍會較大，但如果是非常大的樣本數(shù)，比如100萬對比100萬的數(shù)據(jù)，即使是1-2天，0.1%的數(shù)據(jù)也是顯著置信的~

最近來自上海回復(fù)
1. 王瑞秋作者回復(fù)Eric
  
  嗯嗯是把可能出現(xiàn)的誤區(qū)都提出來了呢 ~
  
  最近來自北京回復(fù)