亚洲精品无码一本大道东京热无码视频，国产无遮挡很黄很爽的网站，久久香蕉门国产免费天天，91在线无码人妻，人妻三级日本香港三级极99，91秒拍国产福利在线观看，人妻av无码系列一区二区三区，国产精品民宅偷窥盗摄

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線(xiàn)下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專(zhuān)項(xiàng)技能課

1300+專(zhuān)題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專(zhuān)業(yè)技能直播

會(huì)員專(zhuān)屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

如何使用A/A測(cè)試，讓數(shù)據(jù)更準(zhǔn)確？

吆喝科技

2016-11-02

2 評(píng)論 11047 瀏覽 17 收藏

13 分鐘

什么比沒(méi)數(shù)據(jù)可用更糟糕？虛假數(shù)據(jù)。

沒(méi)有什么能像A/B測(cè)試一樣給你信心并讓你闊步向前；同樣地，沒(méi)什么能比虛假數(shù)據(jù)更快終結(jié)你的大步向前。為了進(jìn)行正確的測(cè)試，你需要了解A/B測(cè)試的統(tǒng)計(jì)學(xué)；否則，你會(huì)花費(fèi)很多時(shí)間試圖獲得答案而不是得到答案。最終，你會(huì)混淆你以為你有的答案，實(shí)際上你卻什么都沒(méi)有。A/A測(cè)試，將確保你得到的數(shù)據(jù)能用來(lái)自信地作出決定。

我們會(huì)給你介紹一種測(cè)試，如果成功它不會(huì)教你關(guān)于訪(fǎng)客的情況，相反，它帶來(lái)的要比原始數(shù)據(jù)更有價(jià)值，它會(huì)給你信心。

什么是A / A測(cè)試

在你對(duì)標(biāo)題、副標(biāo)題、配色、 CTA 、視頻腳本、設(shè)計(jì)等進(jìn)行測(cè)試之前，先測(cè)試軟件本身。這很簡(jiǎn)單，通過(guò)測(cè)試網(wǎng)頁(yè)自身就能實(shí)現(xiàn)。有人會(huì)認(rèn)為這是毫無(wú)意義的，因?yàn)橐粋€(gè)頁(yè)面的相同頁(yè)面將會(huì)有同樣的結(jié)果，對(duì)嗎？

并非如此。

測(cè)試3天后，A/A測(cè)試表明，同樣的變化校驗(yàn)版本與原始版本相比，少了35.7%的收入，這會(huì)是對(duì)增長(zhǎng)的絞殺。

這個(gè)運(yùn)行了3天的A/A測(cè)試沒(méi)能帶來(lái)任何信心的增長(zhǎng)。

造成這一結(jié)果的原因可能有：

你正在使用的A/B測(cè)試工具出了故障；
通過(guò)你的網(wǎng)站所報(bào)告的數(shù)據(jù)是錯(cuò)誤或重復(fù)的；
A/A測(cè)試需要運(yùn)行更長(zhǎng)時(shí)間。

對(duì)這個(gè)問(wèn)題的第一個(gè)線(xiàn)索是樣本規(guī)模較小，雖然每個(gè)頁(yè)面有超過(guò)345的訪(fǎng)問(wèn)量，但只有22/34筆交易。對(duì)一個(gè)大的因素來(lái)說(shuō)，這個(gè)交易量太小。在A/B測(cè)試統(tǒng)計(jì)中，交易量比流量在建立統(tǒng)計(jì)信心上顯得更重要。少于200筆的交易量通常帶來(lái)無(wú)意義的結(jié)果。

顯然，這種測(cè)試需要運(yùn)行更長(zhǎng)的時(shí)間。

你的第一直覺(jué)可能是通過(guò)快速A/A測(cè)試，這樣你就能開(kāi)展真正有趣的事情-A/B測(cè)試。但這是錯(cuò)的，上面告訴了你為什么。

用A/A測(cè)試來(lái)校準(zhǔn)你的A/B測(cè)試工具

隨著時(shí)間的推移，兩個(gè)相同頁(yè)面之間的差異若一直存在，我們會(huì)取消A/B測(cè)試計(jì)劃直到我們找出這種差異的源頭，到底是A/B測(cè)試工具還是網(wǎng)站本身的問(wèn)題。我們也應(yīng)重新測(cè)試來(lái)預(yù)先發(fā)現(xiàn)A/A測(cè)試存在的異常。

在這種情況下，較長(zhǎng)時(shí)間的A/A測(cè)試能彌補(bǔ)樣本數(shù)量的不足。在一次A/A試驗(yàn)中，3.5%的誤差是可接受的，并且最小樣本量需要保證有接近200的交易量，才可以開(kāi)始評(píng)估結(jié)果。

這是統(tǒng)計(jì)顯著和樣本大小建立或摧毀信心的一個(gè)很好的教訓(xùn)。

一個(gè)A / A測(cè)試將告訴你，你的最小樣本數(shù)量

A/A測(cè)試最終有效取決于足夠的試驗(yàn)時(shí)間，合適的流量。不只是大量的流量，還需要合適的樣本大小。

周一早上的顧客從統(tǒng)計(jì)上來(lái)看是跟周六晚上的顧客完全不同的兩類(lèi)人；
節(jié)假日的顧客與非節(jié)假日的顧客統(tǒng)計(jì)差異顯著；
桌面顧客和移動(dòng)端顧客統(tǒng)計(jì)差異顯著；
工作中的顧客與居家的顧客不同；
付費(fèi)廣告渠道顧客與口碑推薦顧客不同。

如果你深入挖掘你的數(shù)據(jù)結(jié)果諸如設(shè)備類(lèi)型和瀏覽器版本，你會(huì)發(fā)現(xiàn)驚人的不同。當(dāng)然，小樣本下的結(jié)果是不可信的。這是因?yàn)樾颖緩目傮w上意味著可能存在分配不均的數(shù)據(jù)段。

下面是來(lái)自同一個(gè)A/A測(cè)試的數(shù)據(jù)樣本。在這點(diǎn)上，對(duì)每個(gè)變量少于300次的會(huì)話(huà)進(jìn)行了測(cè)試，你可以看到，使用 Safari 瀏覽器的 Mac 訪(fǎng)客存在分配不均，校驗(yàn)版本發(fā)生85次訪(fǎng)問(wèn)，控制版本發(fā)生了65次。記住，這兩個(gè)版本是一樣的，此外，在 IE 瀏覽器上甚至存在更大的差異，分別是27和16。

這種不均衡是平均的規(guī)律，考慮這種不均不是沒(méi)有道理的，但是，我們期望能有更大的樣本量。

不同的瀏覽器有不同的轉(zhuǎn)化率

據(jù)統(tǒng)計(jì)，一個(gè)分配不均會(huì)導(dǎo)致不同的結(jié)果，即使所有的變化都是平等的。如果訪(fǎng)問(wèn)分配不均，那么那些準(zhǔn)備轉(zhuǎn)換的訪(fǎng)客客也會(huì)分配不均，這將導(dǎo)致轉(zhuǎn)化率的不同。

在上面的圖中，我們看到。對(duì)于 Internet Explorer 瀏覽器的訪(fǎng)客，全部的16個(gè)訪(fǎng)客是沒(méi)有轉(zhuǎn)換的，然而校驗(yàn)組的訪(fǎng)客卻有7.41%的轉(zhuǎn)化率。

在 Safari 下，相同數(shù)量的訪(fǎng)客被分配到控制組和變量校驗(yàn)組，但到達(dá)控制組的只有65名訪(fǎng)客，到達(dá)校驗(yàn)組的有85名訪(fǎng)客，看起來(lái)控制組有更高的轉(zhuǎn)化率。

但原因肯定不是因?yàn)橛袃蓚€(gè)相同的頁(yè)面。

隨著時(shí)間的推移，我們預(yù)計(jì)大多數(shù)不一致會(huì)被拉平。那時(shí)，這些疊加起來(lái)就造成參差不齊的結(jié)果。

當(dāng)你在A/B測(cè)試中測(cè)試不同的頁(yè)面時(shí)，這些外力因素將會(huì)產(chǎn)生影響。如果樣本量太小，你知道為什么你的A/B測(cè)試工具建議你繼續(xù)錯(cuò)誤的版本嗎？

計(jì)算測(cè)試持續(xù)時(shí)間

在從不同的細(xì)分受眾中收到足夠大的樣本量來(lái)確定你的那個(gè)版本的網(wǎng)頁(yè)在受眾面前表現(xiàn)更好前，你必須進(jìn)行測(cè)試。A/A測(cè)試能證明其達(dá)到統(tǒng)計(jì)顯著的時(shí)間。

A/B測(cè)試持續(xù)時(shí)間是兩個(gè)因素的函數(shù)：

達(dá)到一個(gè)可接受的樣本大小所需的時(shí)間；
變量之間的不同表現(xiàn)差異大小。

如果一個(gè)變量引起了50%的變化，測(cè)試就不必運(yùn)行很長(zhǎng)時(shí)間。大比分勝利，也被成為“戰(zhàn)勝的機(jī)會(huì)”或“信心”，即使是在小樣本下，也能戰(zhàn)勝誤差。

因此，一個(gè)A/A測(cè)試表現(xiàn)的最壞場(chǎng)景，其中變量幾乎沒(méi)辦法戰(zhàn)勝控制組，因?yàn)樗窍嗤模聦?shí)上，A/A測(cè)試可能永遠(yuǎn)達(dá)不到統(tǒng)計(jì)顯著。

在上面的例子中，測(cè)試還沒(méi)有達(dá)到統(tǒng)計(jì)顯著，而且不可能達(dá)到。然而，我們看到了校準(zhǔn)變量版本和控制版本在15天后轉(zhuǎn)化率曲線(xiàn)重合。

在這個(gè)A/A測(cè)試中，相同的頁(yè)面花了15天轉(zhuǎn)化率逐步接近。

這告訴我們，測(cè)試至少要運(yùn)行15天，以確保我們有一個(gè)很好的樣本集。不論如何，測(cè)試不應(yīng)該運(yùn)行少于一個(gè)星期，兩個(gè)星期是可取的。

設(shè)置一個(gè)A/A測(cè)試

A/A測(cè)試好在不必做任何創(chuàng)造性的或研發(fā)上的工作。當(dāng)設(shè)置A/B測(cè)試時(shí)，你需要在A/B測(cè)試軟件上編程來(lái)改變、隱藏或刪除頁(yè)面的某些部分；但根據(jù)定義，對(duì)A/A測(cè)試來(lái)說(shuō)這些都是不需要的。

對(duì)A/A測(cè)試來(lái)說(shuō)，面臨的挑戰(zhàn)是正確的選擇運(yùn)行測(cè)試的頁(yè)面，你的A/A測(cè)試頁(yè)面都應(yīng)該有兩個(gè)特點(diǎn)：

相對(duì)較高的流量。網(wǎng)頁(yè)流量越多，越早看到變量的對(duì)比；
訪(fǎng)客可以從頁(yè)面購(gòu)買(mǎi)或注冊(cè)。我們希望根據(jù)最終目標(biāo)來(lái)校驗(yàn)我們的A/B測(cè)試工具。

出于這些原因，通常我們?cè)诰W(wǎng)站主頁(yè)上運(yùn)行A/A測(cè)試。

你也想給你的A/B測(cè)試工具集成數(shù)據(jù)分析工具，你的A/B測(cè)試工具可能被設(shè)置錯(cuò)誤，導(dǎo)致兩個(gè)變量變現(xiàn)類(lèi)似。通過(guò)數(shù)據(jù)分析工具對(duì)A/A測(cè)試數(shù)據(jù)的鉆取和分析，可以與A/B測(cè)試工具數(shù)據(jù)報(bào)告的轉(zhuǎn)化和收入做比較，它們具有關(guān)聯(lián)性。

我可以在同一時(shí)間運(yùn)行A/B測(cè)試和A/A測(cè)試嗎？

統(tǒng)計(jì)意義上，你可以在運(yùn)行A/B測(cè)試的網(wǎng)站上運(yùn)行A/A測(cè)試。如果工具運(yùn)行良好，A/A測(cè)試不會(huì)對(duì)訪(fǎng)客造成明顯影響。但這會(huì)為A/B測(cè)試引入更多的錯(cuò)誤，只有通過(guò)更長(zhǎng)的測(cè)試時(shí)間來(lái)達(dá)到統(tǒng)計(jì)顯著。

而如果A/A測(cè)試一段時(shí)間沒(méi)有被“拉平”，你必須拋棄你的A/B測(cè)試結(jié)果。

在等待A/A測(cè)試自生自滅的時(shí)間里你也可以運(yùn)行A/B測(cè)試來(lái)達(dá)到統(tǒng)計(jì)學(xué)意義。你不想在A/A測(cè)試期間做任何改變。

運(yùn)行A/A測(cè)試的成本

運(yùn)行A/A測(cè)試的成本：機(jī)會(huì)成本。A/A測(cè)試上投入的時(shí)間和流量用來(lái)進(jìn)行A/B測(cè)試，你能學(xué)到關(guān)于訪(fǎng)客的有價(jià)值的信息。

應(yīng)該考慮運(yùn)行A/A測(cè)試的唯一種情況：

你剛安裝了一個(gè)新的測(cè)試工具或更改了測(cè)試工具設(shè)置；
你發(fā)現(xiàn)了測(cè)試工具報(bào)告的數(shù)據(jù)與分析報(bào)告之間存在差異。

運(yùn)行A/A測(cè)試不是一種非常常見(jiàn)的情況。

有兩種類(lèi)型的A/A測(cè)試：

一個(gè)“純”的雙變量測(cè)試
“校驗(yàn)變量”的A/B測(cè)試

單純的雙變量A/A測(cè)試

通過(guò)這種方法，你選擇了一個(gè)高流量頁(yè)面并用A/B測(cè)試工具建立了測(cè)試，這時(shí)候就會(huì)有控制變量和沒(méi)有改變的第二個(gè)變量。

優(yōu)點(diǎn)：此測(cè)試將在最短的時(shí)間內(nèi)完成，因?yàn)樗械牧髁慷加脕?lái)進(jìn)行測(cè)試
缺點(diǎn)：不能了解你的訪(fǎng)客

校驗(yàn)變量A/A測(cè)試

這種方法包括增加“校驗(yàn)變量”到A/B測(cè)試的設(shè)計(jì)中，之后將會(huì)有控制變量，一個(gè)或多個(gè)“B”變量用于測(cè)試，其他變量與控制組無(wú)差異。當(dāng)測(cè)試完成后，你會(huì)從“B”變量中得到一些結(jié)果，也能夠通過(guò)A/A測(cè)試校驗(yàn)A/B測(cè)試工具。

優(yōu)點(diǎn)：你可以做一個(gè)A/A測(cè)試無(wú)需停止你的AB測(cè)試程序。
缺點(diǎn)：這種方法在統(tǒng)計(jì)學(xué)上非常棘手。測(cè)試中有越多變量，期望誤差越大。它也會(huì)消耗A//B測(cè)試的流量，要求測(cè)試運(yùn)行更長(zhǎng)時(shí)間來(lái)達(dá)到統(tǒng)計(jì)顯著。