如何使用A/A測(cè)試,讓數(shù)據(jù)更準(zhǔn)確?
什么比沒(méi)數(shù)據(jù)可用更糟糕?虛假數(shù)據(jù)。
沒(méi)有什么能像A/B測(cè)試一樣給你信心并讓你闊步向前;同樣地,沒(méi)什么能比虛假數(shù)據(jù)更快終結(jié)你的大步向前。為了進(jìn)行正確的測(cè)試,你需要了解A/B測(cè)試的統(tǒng)計(jì)學(xué);否則,你會(huì)花費(fèi)很多時(shí)間試圖獲得答案而不是得到答案。最終,你會(huì)混淆你以為你有的答案,實(shí)際上你卻什么都沒(méi)有。A/A測(cè)試,將確保你得到的數(shù)據(jù)能用來(lái)自信地作出決定。
我們會(huì)給你介紹一種測(cè)試,如果成功它不會(huì)教你關(guān)于訪(fǎng)客的情況,相反,它帶來(lái)的要比原始數(shù)據(jù)更有價(jià)值,它會(huì)給你信心。
什么是A / A測(cè)試
在你對(duì)標(biāo)題、副標(biāo)題、配色、 CTA 、視頻腳本、設(shè)計(jì)等進(jìn)行測(cè)試之前,先測(cè)試軟件本身。這很簡(jiǎn)單,通過(guò)測(cè)試網(wǎng)頁(yè)自身就能實(shí)現(xiàn)。有人會(huì)認(rèn)為這是毫無(wú)意義的,因?yàn)橐粋€(gè)頁(yè)面的相同頁(yè)面將會(huì)有同樣的結(jié)果,對(duì)嗎?
并非如此。
測(cè)試3天后,A/A測(cè)試表明,同樣的變化校驗(yàn)版本與原始版本相比,少了35.7%的收入,這會(huì)是對(duì)增長(zhǎng)的絞殺。
這個(gè)運(yùn)行了3天的A/A測(cè)試沒(méi)能帶來(lái)任何信心的增長(zhǎng)。
造成這一結(jié)果的原因可能有:
- 你正在使用的A/B測(cè)試工具出了故障;
- 通過(guò)你的網(wǎng)站所報(bào)告的數(shù)據(jù)是錯(cuò)誤或重復(fù)的;
- A/A測(cè)試需要運(yùn)行更長(zhǎng)時(shí)間。
對(duì)這個(gè)問(wèn)題的第一個(gè)線(xiàn)索是樣本規(guī)模較小,雖然每個(gè)頁(yè)面有超過(guò)345的訪(fǎng)問(wèn)量,但只有22/34筆交易。對(duì)一個(gè)大的因素來(lái)說(shuō),這個(gè)交易量太小。在A/B測(cè)試統(tǒng)計(jì)中,交易量比流量在建立統(tǒng)計(jì)信心上顯得更重要。少于200筆的交易量通常帶來(lái)無(wú)意義的結(jié)果。
顯然,這種測(cè)試需要運(yùn)行更長(zhǎng)的時(shí)間。
你的第一直覺(jué)可能是通過(guò)快速A/A測(cè)試,這樣你就能開(kāi)展真正有趣的事情-A/B測(cè)試。但這是錯(cuò)的,上面告訴了你為什么。
用A/A測(cè)試來(lái)校準(zhǔn)你的A/B測(cè)試工具
隨著時(shí)間的推移,兩個(gè)相同頁(yè)面之間的差異若一直存在,我們會(huì)取消A/B測(cè)試計(jì)劃直到我們找出這種差異的源頭,到底是A/B測(cè)試工具還是網(wǎng)站本身的問(wèn)題。我們也應(yīng)重新測(cè)試來(lái)預(yù)先發(fā)現(xiàn)A/A測(cè)試存在的異常。
在這種情況下,較長(zhǎng)時(shí)間的A/A測(cè)試能彌補(bǔ)樣本數(shù)量的不足。在一次A/A試驗(yàn)中,3.5%的誤差是可接受的,并且最小樣本量需要保證有接近200的交易量,才可以開(kāi)始評(píng)估結(jié)果。
這是統(tǒng)計(jì)顯著和樣本大小建立或摧毀信心的一個(gè)很好的教訓(xùn)。
一個(gè)A / A測(cè)試將告訴你,你的最小樣本數(shù)量
A/A測(cè)試最終有效取決于足夠的試驗(yàn)時(shí)間,合適的流量。不只是大量的流量,還需要合適的樣本大小。
- 周一早上的顧客從統(tǒng)計(jì)上來(lái)看是跟周六晚上的顧客完全不同的兩類(lèi)人;
- 節(jié)假日的顧客與非節(jié)假日的顧客統(tǒng)計(jì)差異顯著;
- 桌面顧客和移動(dòng)端顧客統(tǒng)計(jì)差異顯著;
- 工作中的顧客與居家的顧客不同;
- 付費(fèi)廣告渠道顧客與口碑推薦顧客不同。
如果你深入挖掘你的數(shù)據(jù)結(jié)果諸如設(shè)備類(lèi)型和瀏覽器版本,你會(huì)發(fā)現(xiàn)驚人的不同。當(dāng)然,小樣本下的結(jié)果是不可信的。這是因?yàn)樾颖緩目傮w上意味著可能存在分配不均的數(shù)據(jù)段。
下面是來(lái)自同一個(gè)A/A測(cè)試的數(shù)據(jù)樣本。在這點(diǎn)上,對(duì)每個(gè)變量少于300次的會(huì)話(huà)進(jìn)行了測(cè)試,你可以看到, 使用 Safari 瀏覽器的 Mac 訪(fǎng)客存在分配不均,校驗(yàn)版本發(fā)生85次訪(fǎng)問(wèn),控制版本發(fā)生了65次。記住,這兩個(gè)版本是一樣的,此外,在 IE 瀏覽器上甚至存在更大的差異,分別是27和16。
這種不均衡是平均的規(guī)律,考慮這種不均不是沒(méi)有道理的,但是,我們期望能有更大的樣本量。
不同的瀏覽器有不同的轉(zhuǎn)化率
據(jù)統(tǒng)計(jì),一個(gè)分配不均會(huì)導(dǎo)致不同的結(jié)果,即使所有的變化都是平等的。如果訪(fǎng)問(wèn)分配不均,那么那些準(zhǔn)備轉(zhuǎn)換的訪(fǎng)客客也會(huì)分配不均,這將導(dǎo)致轉(zhuǎn)化率的不同。
在上面的圖中,我們看到。對(duì)于 Internet Explorer 瀏覽器的訪(fǎng)客,全部的16個(gè)訪(fǎng)客是沒(méi)有轉(zhuǎn)換的,然而校驗(yàn)組的訪(fǎng)客卻有7.41%的轉(zhuǎn)化率。
在 Safari 下,相同數(shù)量的訪(fǎng)客被分配到控制組和變量校驗(yàn)組,但到達(dá)控制組的只有65名訪(fǎng)客,到達(dá)校驗(yàn)組的有85名訪(fǎng)客,看起來(lái)控制組有更高的轉(zhuǎn)化率。
但原因肯定不是因?yàn)橛袃蓚€(gè)相同的頁(yè)面。
隨著時(shí)間的推移,我們預(yù)計(jì)大多數(shù)不一致會(huì)被拉平。那時(shí),這些疊加起來(lái)就造成參差不齊的結(jié)果。
當(dāng)你在A/B測(cè)試中測(cè)試不同的頁(yè)面時(shí),這些外力因素將會(huì)產(chǎn)生影響。如果樣本量太小,你知道為什么你的A/B測(cè)試工具建議你繼續(xù)錯(cuò)誤的版本嗎?
計(jì)算測(cè)試持續(xù)時(shí)間
在從不同的細(xì)分受眾中收到足夠大的樣本量來(lái)確定你的那個(gè)版本的網(wǎng)頁(yè)在受眾面前表現(xiàn)更好前,你必須進(jìn)行測(cè)試。A/A測(cè)試能證明其達(dá)到統(tǒng)計(jì)顯著的時(shí)間。
A/B測(cè)試持續(xù)時(shí)間是兩個(gè)因素的函數(shù):
- 達(dá)到一個(gè)可接受的樣本大小所需的時(shí)間;
- 變量之間的不同表現(xiàn)差異大小。
如果一個(gè)變量引起了50%的變化,測(cè)試就不必運(yùn)行很長(zhǎng)時(shí)間。大比分勝利,也被成為“戰(zhàn)勝的機(jī)會(huì)”或“信心”,即使是在小樣本下,也能戰(zhàn)勝誤差。
因此,一個(gè)A/A測(cè)試表現(xiàn)的最壞場(chǎng)景,其中變量幾乎沒(méi)辦法戰(zhàn)勝控制組,因?yàn)樗窍嗤模聦?shí)上,A/A測(cè)試可能永遠(yuǎn)達(dá)不到統(tǒng)計(jì)顯著。
在上面的例子中,測(cè)試還沒(méi)有達(dá)到統(tǒng)計(jì)顯著,而且不可能達(dá)到。然而,我們看到了校準(zhǔn)變量版本和控制版本在15天后轉(zhuǎn)化率曲線(xiàn)重合。
在這個(gè)A/A測(cè)試中,相同的頁(yè)面花了15天轉(zhuǎn)化率逐步接近。
這告訴我們,測(cè)試至少要運(yùn)行15天,以確保我們有一個(gè)很好的樣本集。不論如何,測(cè)試不應(yīng)該運(yùn)行少于一個(gè)星期,兩個(gè)星期是可取的。
設(shè)置一個(gè)A/A測(cè)試
A/A測(cè)試好在不必做任何創(chuàng)造性的或研發(fā)上的工作。當(dāng)設(shè)置A/B測(cè)試時(shí),你需要在A/B測(cè)試軟件上編程來(lái)改變、隱藏或刪除頁(yè)面的某些部分;但根據(jù)定義,對(duì)A/A測(cè)試來(lái)說(shuō)這些都是不需要的。
對(duì)A/A測(cè)試來(lái)說(shuō),面臨的挑戰(zhàn)是正確的選擇運(yùn)行測(cè)試的頁(yè)面,你的A/A測(cè)試頁(yè)面都應(yīng)該有兩個(gè)特點(diǎn):
- 相對(duì)較高的流量。網(wǎng)頁(yè)流量越多,越早看到變量的對(duì)比;
- 訪(fǎng)客可以從頁(yè)面購(gòu)買(mǎi)或注冊(cè)。我們希望根據(jù)最終目標(biāo)來(lái)校驗(yàn)我們的A/B測(cè)試工具。
出于這些原因,通常我們?cè)诰W(wǎng)站主頁(yè)上運(yùn)行A/A測(cè)試。
你也想給你的A/B測(cè)試工具集成數(shù)據(jù)分析工具,你的A/B測(cè)試工具可能被設(shè)置錯(cuò)誤,導(dǎo)致兩個(gè)變量變現(xiàn)類(lèi)似。通過(guò)數(shù)據(jù)分析工具對(duì)A/A測(cè)試數(shù)據(jù)的鉆取和分析,可以與A/B測(cè)試工具數(shù)據(jù)報(bào)告的轉(zhuǎn)化和收入做比較,它們具有關(guān)聯(lián)性。
我可以在同一時(shí)間運(yùn)行A/B測(cè)試和A/A測(cè)試嗎?
統(tǒng)計(jì)意義上,你可以在運(yùn)行A/B測(cè)試的網(wǎng)站上運(yùn)行A/A測(cè)試。如果工具運(yùn)行良好,A/A測(cè)試不會(huì)對(duì)訪(fǎng)客造成明顯影響。但這會(huì)為A/B測(cè)試引入更多的錯(cuò)誤,只有通過(guò)更長(zhǎng)的測(cè)試時(shí)間來(lái)達(dá)到統(tǒng)計(jì)顯著。
而如果A/A測(cè)試一段時(shí)間沒(méi)有被“拉平”,你必須拋棄你的A/B測(cè)試結(jié)果。
在等待A/A測(cè)試自生自滅的時(shí)間里你也可以運(yùn)行A/B測(cè)試來(lái)達(dá)到統(tǒng)計(jì)學(xué)意義。你不想在A/A測(cè)試期間做任何改變。
運(yùn)行A/A測(cè)試的成本
運(yùn)行A/A測(cè)試的成本:機(jī)會(huì)成本。A/A測(cè)試上投入的時(shí)間和流量用來(lái)進(jìn)行A/B測(cè)試,你能學(xué)到關(guān)于訪(fǎng)客的有價(jià)值的信息。
應(yīng)該考慮運(yùn)行A/A測(cè)試的唯一種情況:
- 你剛安裝了一個(gè)新的測(cè)試工具或更改了測(cè)試工具設(shè)置;
- 你發(fā)現(xiàn)了測(cè)試工具報(bào)告的數(shù)據(jù)與分析報(bào)告之間存在差異。
運(yùn)行A/A測(cè)試不是一種非常常見(jiàn)的情況。
有兩種類(lèi)型的A/A測(cè)試:
- 一個(gè)“純”的雙變量測(cè)試
- “校驗(yàn)變量”的A/B測(cè)試
單純的雙變量A/A測(cè)試
通過(guò)這種方法,你選擇了一個(gè)高流量頁(yè)面并用A/B測(cè)試工具建立了測(cè)試,這時(shí)候就會(huì)有控制變量和沒(méi)有改變的第二個(gè)變量。
- 優(yōu)點(diǎn):此測(cè)試將在最短的時(shí)間內(nèi)完成,因?yàn)樗械牧髁慷加脕?lái)進(jìn)行測(cè)試
- 缺點(diǎn):不能了解你的訪(fǎng)客
校驗(yàn)變量A/A測(cè)試
這種方法包括增加“校驗(yàn)變量”到A/B測(cè)試的設(shè)計(jì)中,之后將會(huì)有控制變量,一個(gè)或多個(gè)“B”變量用于測(cè)試,其他變量與控制組無(wú)差異。當(dāng)測(cè)試完成后,你會(huì)從“B”變量中得到一些結(jié)果,也能夠通過(guò)A/A測(cè)試校驗(yàn)A/B測(cè)試工具。
- 優(yōu)點(diǎn):你可以做一個(gè)A/A測(cè)試無(wú)需停止你的AB測(cè)試程序。
- 缺點(diǎn):這種方法在統(tǒng)計(jì)學(xué)上非常棘手。測(cè)試中有越多變量,期望誤差越大。它也會(huì)消耗A//B測(cè)試的流量,要求測(cè)試運(yùn)行更長(zhǎng)時(shí)間來(lái)達(dá)到統(tǒng)計(jì)顯著。
在A/B測(cè)試中進(jìn)行A/A測(cè)試校驗(yàn)。
不幸的是,在上面的測(cè)試”中,A/B測(cè)試變量“Under ‘Package’ CTAs” 沒(méi)有很明顯的跑贏A/A測(cè)試的校驗(yàn)變量。
你可以從A / A測(cè)試中學(xué)到更多的東西
A/B測(cè)試工具更強(qiáng)大的一項(xiàng)功能是跨網(wǎng)站跟蹤訪(fǎng)客行為的能力,常見(jiàn)的A/B測(cè)試工具能跟蹤一系列用戶(hù)行為來(lái)告訴你一些訪(fǎng)客行為。
- 注冊(cè)或購(gòu)買(mǎi)的哪些步驟導(dǎo)致訪(fǎng)客離開(kāi)網(wǎng)站;
- 有多少訪(fǎng)客開(kāi)始填寫(xiě)表格;
- 訪(fǎng)客點(diǎn)擊哪些圖片;
- 哪些導(dǎo)航欄經(jīng)常被點(diǎn)擊。
通過(guò)定義這些訪(fǎng)客規(guī)則,能在運(yùn)行A/B測(cè)試期間更好的理解訪(fǎng)客行為。
翻譯:由吆喝科技(微信:appadhoc)編譯自:How an A/A Test Gives You Confidence
本文由 @吆喝科技 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
你用的百度翻譯么 吐了
你確定這翻譯順暢?