數(shù)據(jù)分析誤區(qū)系列(五):因果陷阱
做數(shù)據(jù)分析時,如果提前知道一些常見的誤區(qū),能提高我們不少工作效率。本文分享的因果陷阱這種概念,能幫大家避免此類誤區(qū)。
做互聯(lián)網(wǎng)應(yīng)用運營同學(xué)經(jīng)常會遇到這樣的問題,當(dāng)增加廣告或者發(fā)放更多的優(yōu)惠券時,最終訂單支付率也會增加,兩者之間的相關(guān)性很高
例如:
(a)在廣告投入每增加10%,支付失敗率從10%增加到15%。
(b)在廣告投入沒有增加的時候,支付失敗率維持在10%。
因此就推斷可能是增加廣告投入導(dǎo)致了支付失敗率的增加。
盡管數(shù)據(jù)顯示了廣告投入和支付失敗率之間的高度相關(guān)性,但這并不能確定廣告投入就是支付失敗率增加的原因。實際上,增加廣告投入可能吸引了更多的新用戶來到網(wǎng)站,而這些新用戶對網(wǎng)站的產(chǎn)品和購物流程不熟悉,導(dǎo)致支付失敗率的增加。其實”關(guān)聯(lián)并不意味著因果關(guān)系”。我們不能僅僅因為兩個變量之間有關(guān)聯(lián),而直接斷定它們之間存在著因果關(guān)系。這就是常說的“因果陷阱”。
類似:在一份關(guān)于氣候變化的研究數(shù)據(jù)中,科學(xué)家發(fā)現(xiàn),過去十年來海盜數(shù)量的減少與全球氣溫的升高呈現(xiàn)高度關(guān)聯(lián)性。那么,我們能否因此得出結(jié)論:減少海盜數(shù)量會導(dǎo)致全球氣溫升高?顯然,這種因果關(guān)系是荒謬的,注意,這就是不正確理解數(shù)據(jù)的結(jié)果,也是因果陷阱的一個典型例子。
讓我們再來看一個更生活化的例子。一個常見的說法是“撒嬌的女人更好命”。假設(shè)我們有一份研究結(jié)果顯示,撒嬌的女人通常比不喜歡撒嬌的女人更好命,這里的“好命”可能被定義為更幸福的生活或者更高的生活滿意度。然而,這并不能說明撒嬌就是導(dǎo)致“好命”的因素。
首先,可能存在第三個變量,比如財富狀況或自信心,這些變量可能既影響女人是否撒嬌,又影響其“好命”的程度。例如,一個更自信或者更富有的女人可能更可能毫無顧忌地撒嬌,同時也很可能由于這個原因,擁有比較滿意的生活。
其次,這種關(guān)聯(lián)可能是反向即反事實的。也就是說,因為女人具有更好的生活,她們才有幸福感、自信心去撒嬌。換句話說,“好命”引發(fā)了撒嬌,而非撒嬌導(dǎo)致了“好命”。
只看到“撒嬌的女人更好命”的表面現(xiàn)象,而不深入分析其背后可能存在的機制,便很容易陷入因果陷阱。我們可以通過更深入、全面的研究,并計算各種影響因素的控制變量,來更準(zhǔn)確地理解這個現(xiàn)象。
在數(shù)據(jù)分析過程中,我們需要注意的是:關(guān)聯(lián)性是可以量化的,但是因果性則需要通過科學(xué)的實驗設(shè)計和深入的思考來確定。統(tǒng)計學(xué)中,Pearson相關(guān)系數(shù)是一種衡量兩個變量線性相關(guān)程度的量,其取值范圍在-1到1之間,值越大關(guān)聯(lián)性越強,但是這并不是說它們之間就存在因果關(guān)系。
比如,我們經(jīng)常看到夏天冰淇淋的銷售量與溺水事件的增多有很高的相關(guān)性,但是我們并不能說冰淇淋的銷售增加導(dǎo)致了溺水事件的增多,這是因為他們的增加都是由炎熱的天氣因素引起的。
數(shù)據(jù)分析不僅僅是看數(shù)字,理解數(shù)據(jù)。更重要的是要精確地理解和分辨關(guān)聯(lián)性和因果性,避免陷入因果陷阱?;砣婚_朗的數(shù)據(jù)洞察,并不是拿到數(shù)據(jù)就能獲得的,需要我們深度思考和尖銳洞察。在這個數(shù)據(jù)泛濫的時代,正確理解數(shù)據(jù),避免因果陷阱的誤導(dǎo),就是我們每一個數(shù)據(jù)分析師的使命和責(zé)任。
本文由 @佑佑和博博~ 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!