幾個(gè)很有啟發(fā)性的關(guān)于“數(shù)據(jù)會(huì)說(shuō)謊”的真實(shí)例子
數(shù)據(jù)解讀是數(shù)據(jù)分析最重要的環(huán)節(jié),數(shù)據(jù)不會(huì)說(shuō)謊,說(shuō)謊是來(lái)自于數(shù)據(jù)誤讀;很多公司招聘數(shù)據(jù)分析只強(qiáng)調(diào)數(shù)據(jù)處理,對(duì)數(shù)據(jù)解讀無(wú)法評(píng)估,就會(huì)帶來(lái)數(shù)據(jù)誤讀,從而產(chǎn)生“數(shù)據(jù)會(huì)說(shuō)謊”的結(jié)論。
幾個(gè)的真實(shí)案例
1.、通過(guò)可控的客戶(hù)端采樣監(jiān)測(cè),得到了一定樣本的,包含google搜索url特征的日志記錄,得到google的搜索量;同樣的樣本下,采集到包含google adwords廣告url特征的日志記錄,得到google的廣告點(diǎn)擊數(shù)。 那么,理所當(dāng)然&一廂情愿的 用點(diǎn)擊數(shù)/搜索量,得到點(diǎn)擊率。 但是,這個(gè)點(diǎn)擊率是顯著錯(cuò)誤的,理由是,google的adwords廣告點(diǎn)擊,并不只發(fā)生在google的搜索結(jié)果中! 當(dāng)時(shí)的情況是,點(diǎn)擊率被高估了一倍。(其實(shí)已經(jīng)區(qū)分了adsense和adwords廣告點(diǎn)擊的url特征,但是adwords也會(huì)出現(xiàn)在其他網(wǎng)站)
對(duì)數(shù)據(jù)邏輯及相互關(guān)系的理解不透徹,就會(huì)帶來(lái)錯(cuò)誤的解讀。
2、反欺詐點(diǎn)擊,有一定的點(diǎn)擊過(guò)濾策略來(lái)進(jìn)行,引入一種新的過(guò)濾策略,會(huì)帶來(lái)更加嚴(yán)格的過(guò)濾,于是按照新的策略跑一遍舊的日志,得到結(jié)論,額外過(guò)濾了若干點(diǎn)擊,價(jià)值若干,會(huì)導(dǎo)致收入下降若干。
但是這個(gè)結(jié)論是徹底錯(cuò)誤的。當(dāng)嚴(yán)格的策略執(zhí)行之后,客戶(hù)對(duì)該系統(tǒng)信心增加,競(jìng)價(jià)價(jià)格提升,廣告預(yù)算提升,收入不降反升。
這也是有實(shí)際數(shù)據(jù)佐證的。簡(jiǎn)單結(jié)論是,單方面做數(shù)據(jù)推算,而忽略了與用戶(hù)、客戶(hù)的交互影響,就會(huì)做出錯(cuò)誤的推斷。
3、 某同事,名校計(jì)算機(jī)博士,算法達(dá)人,做了一條曲線,A和B高度相關(guān),得到結(jié)論,A會(huì)導(dǎo)致B,看一眼結(jié)論我就罵人了,狗屎結(jié)論,實(shí)際上是A和B均受C的影響,所謂高度相關(guān)是C的因素帶來(lái)的,這是只看數(shù)據(jù)不懂業(yè)務(wù)的典型。
4、樣本偏差,特典型的就是沉默的大多數(shù)現(xiàn)象,簡(jiǎn)單舉例,去IT論壇,發(fā)個(gè)投票,百度好不好,騰訊好不好,多數(shù)人會(huì)說(shuō)不好。但是真正的用戶(hù)是不會(huì)去IT論壇,更不會(huì)參與這種無(wú)聊的投票;所以這種投票得到的結(jié)論,你要真信,你就傻了。 此外,還有比如送禮品的票選,喜歡這種禮品的用戶(hù),本身就有傾向性,如果票選內(nèi)容與禮品有關(guān),那么結(jié)論顯然是不可靠的。
5、有人提到預(yù)測(cè)未來(lái),補(bǔ)充一點(diǎn),就是用戶(hù)不知道自己的未來(lái)。這也是普遍做樣本調(diào)查容易產(chǎn)生的誤區(qū)。如果時(shí)間前溯10年,你問(wèn)一個(gè)用戶(hù),你會(huì)去買(mǎi)蘋(píng)果手機(jī)嗎?他肯定會(huì)說(shuō),你是不是瘋了。但是當(dāng)真的很酷的蘋(píng)果手機(jī)放到他手上,他才會(huì)有感覺(jué)。 這是有真實(shí)案例的,十幾年前,手機(jī)還叫大哥大,還是大款們才特有的玩物,真有調(diào)查公司跑到路邊采訪行人,說(shuō)你需要買(mǎi)手機(jī)嗎,行人紛紛表示不需要。他們不知道這玩意對(duì)他們?nèi)松母淖冇卸啻蟆?0年前,又有類(lèi)似的事情,上網(wǎng)當(dāng)時(shí)被認(rèn)為是不務(wù)正業(yè)的表現(xiàn),報(bào)紙媒體開(kāi)始憂(yōu)心忡忡年輕人的網(wǎng)癮和被網(wǎng)絡(luò)的傷害;然后又有媒體去采訪,很多人表示,上不上網(wǎng)無(wú)所謂。這些都是當(dāng)年一些新聞電視里出現(xiàn)過(guò)的典型場(chǎng)景。如果你相信,你就真完了。
這里的問(wèn)題是,用戶(hù)不能預(yù)知技術(shù)的發(fā)展和對(duì)人類(lèi)群體乃至自身的改變;當(dāng)然,有的人能看到,1997年,還在讀書(shū),我一直糾結(jié)大學(xué)畢業(yè)能做什么,第一次接觸到了互聯(lián)網(wǎng),我堅(jiān)定,這是改變?nèi)祟?lèi)的東西,這是我一輩子的職業(yè)。
6、舉一個(gè)前幾天碰到的真實(shí)的例子吧。選取音樂(lè)電臺(tái)用戶(hù)的一個(gè)子集,共2W人;分成AB兩組,每組1W人;對(duì)每一組使用不同的推薦算法。統(tǒng)計(jì)在一天內(nèi)每一組的用戶(hù)一共點(diǎn)擊了多少次喜歡的按鈕和不喜歡的按鈕。計(jì)算每組用戶(hù)點(diǎn)擊喜歡的按鈕的比例 = 點(diǎn)擊的喜歡個(gè)數(shù)/(點(diǎn)擊喜歡的個(gè)數(shù)+點(diǎn)擊不喜歡的個(gè)數(shù))。理論上這個(gè)值越高,說(shuō)明這組用戶(hù)越滿(mǎn)意,也就說(shuō)明用在這組上的推薦算法更好。后來(lái)發(fā)現(xiàn)這個(gè)結(jié)果沒(méi)有統(tǒng)計(jì)意義…… 因?yàn)橛行┯脩?hù)會(huì)一天給出上千個(gè)喜歡與不喜歡的反饋,這樣的用戶(hù)在AB兩組中的分布決定了最終結(jié)果的好壞。改進(jìn)方法是:需要去除這些噪音點(diǎn),或者使用其他的統(tǒng)計(jì)值。
7、我們還針對(duì)AB兩組用戶(hù)分別統(tǒng)計(jì)了:平均每個(gè)用戶(hù)每天點(diǎn)擊喜歡的音樂(lè)的個(gè)數(shù)。按理說(shuō),這個(gè)個(gè)數(shù)越高,說(shuō)明推薦算法越好。可是,我們又針對(duì)AB兩組用戶(hù)分別統(tǒng)計(jì)了:平均每個(gè)用戶(hù)每天點(diǎn)擊不喜歡的音樂(lè)的個(gè)數(shù)。按理說(shuō),這個(gè)個(gè)數(shù)越高,說(shuō)明推薦算法越差。結(jié)果,發(fā)現(xiàn)在很多情況下,第一個(gè)個(gè)數(shù)高的算法,第二個(gè)個(gè)數(shù)也高。于是,使用單一指標(biāo)也許不能很好的刻畫(huà)一個(gè)算法。改進(jìn)方法是:使用更多的指標(biāo)來(lái)進(jìn)行刻畫(huà),具體問(wèn)題具體分析,尋找背后的原因。
8、當(dāng)年Firefox用戶(hù)與Mac用戶(hù)對(duì)支付寶重要與否,單從瀏覽器數(shù)據(jù)統(tǒng)計(jì)看,F(xiàn)irefox訪問(wèn)支付寶的比例太低了。不過(guò)因?yàn)橹Ц秾毑恢С諪irefox,所以,這個(gè)比例不能用作判斷的依據(jù)。Mac用戶(hù)也是一樣。再說(shuō)一個(gè),支付寶當(dāng)年代繳水電煤的項(xiàng)目改版之后,發(fā)現(xiàn)繳費(fèi)用戶(hù)立刻暴增,產(chǎn)品人員欣喜若狂,后來(lái)白鴉同學(xué)分析一下,哦,原來(lái)那幾天是每個(gè)月水電煤繳費(fèi)高峰期,周期性的抽風(fēng)。其實(shí)呢,分析一下我國(guó)有關(guān)部門(mén)發(fā)布的數(shù)據(jù),你會(huì)發(fā)現(xiàn)那都是一些說(shuō)謊的數(shù)據(jù)。
9、二戰(zhàn)時(shí)英國(guó)皇家空軍邀請(qǐng)美國(guó)的統(tǒng)計(jì)學(xué)家分析德國(guó)地面炮火擊中聯(lián)軍轟炸機(jī)的資料,并且從專(zhuān)業(yè)的角度,建議機(jī)體裝甲應(yīng)該如何加強(qiáng),才能降低被炮火擊落的機(jī)會(huì)。但依照當(dāng)時(shí)的航空技術(shù),機(jī)體裝甲只能局部加強(qiáng),否則機(jī)體過(guò)重,會(huì)導(dǎo)致起飛困難及操控遲鈍。 統(tǒng)計(jì)學(xué)家將聯(lián)軍轟炸機(jī)的彈著點(diǎn)資料,描繪成兩張比較表,研究發(fā)現(xiàn),機(jī)翼是最容易被擊中的部位, 而飛行員的座艙與機(jī)尾,則是最少被擊中的部位。作戰(zhàn)指揮官由此認(rèn)為,應(yīng)該加強(qiáng)機(jī)翼的防護(hù),因?yàn)榉治霰砻?,那里”密密麻麻都是彈孔,最容易被擊中”。但是統(tǒng)計(jì)學(xué)家卻有不同觀點(diǎn),他建議加強(qiáng)座艙與機(jī)尾部位的裝甲,那兒最少發(fā)現(xiàn)彈孔—–因?yàn)樗慕y(tǒng)計(jì)樣本是聯(lián)軍返航的受損飛機(jī),說(shuō)明大多數(shù)被擊中飛行員座艙和尾部發(fā)動(dòng)機(jī)的飛機(jī),根本沒(méi)法返航就墜毀了。
所以如LS幾位所答,不是數(shù)據(jù)說(shuō)謊,而是沒(méi)注意到沉默的數(shù)據(jù)(缺少了的樣本),需要分析者有足夠廣的視角和邏輯,才能從數(shù)據(jù)里挖掘出足夠正確的東西。
10、改版了款wap產(chǎn)品,沒(méi)做任何推廣前提下,發(fā)現(xiàn)流量飆升,尤其匿名用戶(hù)漲了3倍。因?yàn)楫a(chǎn)品本身用戶(hù)基數(shù)低,所以流量翻了兩三倍也算正常。當(dāng)時(shí)估計(jì)是SNS的口碑傳播導(dǎo)致的。但最后還是覺(jué)得不對(duì)勁,查了一下,發(fā)現(xiàn)是搜索引擎在抓頁(yè)面,因?yàn)楦陌媪?,所以它們要重新抓一次??諝g喜一場(chǎng)。數(shù)字還是那個(gè)數(shù)字,但背后它到底對(duì)應(yīng)了什么內(nèi)容,常常被忽略了。
11、我們會(huì)在游戲中對(duì)很多內(nèi)容或操作做數(shù)據(jù)監(jiān)控,然后通過(guò)分析數(shù)據(jù)的提高還是降低,去判斷用戶(hù)對(duì)該內(nèi)容的喜歡程度。但是單獨(dú)看數(shù)據(jù)的提高和降低是沒(méi)有意義的。例如,我們發(fā)現(xiàn)某項(xiàng)物品最近銷(xiāo)售數(shù)據(jù)在下滑,我們可能就會(huì)下結(jié)論:這個(gè)物品受歡迎程度在下降。但這個(gè)結(jié)論是不準(zhǔn)確的,必須結(jié)合著其他的數(shù)據(jù)一塊看,例如DAU。如果DAU在下降,那么該物品的銷(xiāo)售隨之下降是正常的,如果結(jié)合著比例來(lái)看,有可能會(huì)發(fā)現(xiàn)雖然銷(xiāo)售數(shù)據(jù)在下降,但是比例數(shù)據(jù)(即銷(xiāo)售數(shù)/DAU)是在上升的。這樣會(huì)明白,其實(shí)該物品的受歡迎程度并沒(méi)有下降了,而是DAU下降了。而在DAU下降的同時(shí),銷(xiāo)售比例在上升,其實(shí)該物品的受歡迎程度反倒是提高了。
因此,其實(shí)不是數(shù)據(jù)在說(shuō)謊,而是很多數(shù)據(jù)需要辯證的來(lái)看。
12、前不久不有這么一段兒:說(shuō)是美國(guó)著名調(diào)查機(jī)構(gòu)PEW在“胸圍與幸福指數(shù)”調(diào)查中對(duì)500對(duì)30—40歲的夫妻調(diào)查結(jié)果顯示:女性胸圍A杯的離婚率為37%,胸圍B杯的離婚率為16.3%,胸圍C杯的離婚率為4%,而胸圍達(dá)D杯的女性離婚率1%都不到。這個(gè)典型的抽取樣本數(shù)量不等的情況下的出的所謂結(jié)論可信度大打折扣。有個(gè)簡(jiǎn)單的方法看看滑稽在什么地方。有沒(méi)有注意到,里面木有E杯和F杯的數(shù)據(jù),why。。。因?yàn)椋锤揪蜎](méi)有E和F,自然沒(méi)有結(jié)論,要么E和F數(shù)量很小,得出的結(jié)論完全可能出現(xiàn)100%離婚的結(jié)論,這樣的結(jié)論和前面的推到就不符合所以隱藏了。
感謝知乎小伙伴們的無(wú)私奉獻(xiàn),原文鏈接>>>
- 目前還沒(méi)評(píng)論,等你發(fā)揮!