數(shù)據(jù)分析常見(jiàn)誤區(qū)(一)

1 評(píng)論 2336 瀏覽 7 收藏 3 分鐘

本文通過(guò)一個(gè)實(shí)際例子揭示了辛普森悖論現(xiàn)象,即在分析不同條件下的數(shù)據(jù)時(shí)得出的結(jié)論與整體數(shù)據(jù)得出的結(jié)論截然相反。通過(guò)深入探討這一悖論,本文旨在提醒讀者在進(jìn)行數(shù)據(jù)驅(qū)動(dòng)決策時(shí),需警惕表面數(shù)據(jù)的誤導(dǎo),并采取更全面的分析視角。

倆直播間同時(shí)向2個(gè)地區(qū)客戶直播出售荔枝,從數(shù)據(jù)上來(lái)看,A地區(qū)無(wú)論高頻還是中低頻用戶的下單轉(zhuǎn)化率均低于B地區(qū),能否推斷出A地區(qū)整體下單率一定落后于B地區(qū)?

通過(guò)上圖數(shù)據(jù)我們可以看出(a)高頻客戶:A地區(qū)高頻客戶下單轉(zhuǎn)化率5.00%高于B地區(qū)3.33% (b)中低頻客戶:A地區(qū)中低頻客戶下單轉(zhuǎn)化率5.71%高于B地區(qū)4.44%

從數(shù)據(jù)可以看出A地區(qū)的高頻轉(zhuǎn)化和中低頻轉(zhuǎn)化均高于B地區(qū),那么是否A地區(qū)的整體轉(zhuǎn)化也高于B地區(qū)呢? 答案:不是

我們可以統(tǒng)計(jì)計(jì)算出來(lái):整體客戶A地區(qū)下單轉(zhuǎn)化為12/250,B地區(qū)同樣也為12/250。也就是說(shuō)A地區(qū)的整體轉(zhuǎn)化等于B地區(qū)的整體轉(zhuǎn)化。

這就是數(shù)據(jù)分析常見(jiàn)的1個(gè)誤區(qū)–辛普森悖論:在某個(gè)條件的兩組數(shù)據(jù),分別討論時(shí)都會(huì)滿足某種性質(zhì),可一旦合并,卻可能導(dǎo)致相反結(jié)論

查看科比和雷阿倫的職業(yè)生涯統(tǒng)計(jì),發(fā)現(xiàn)無(wú)論兩分球還是三分球命中率,雷阿倫都高于科比,但總命中率科比卻高于雷阿倫。

舉一個(gè)極端的例子:科比和雷阿倫都出手1000次,其中科比出手999個(gè)兩分球命中460個(gè),出手1個(gè)三分球命中0個(gè),雷阿倫出手500個(gè)兩分球命中250個(gè),出手500個(gè)三分球命中200個(gè)。那么科比的兩分球、三分球以及總命中率分別是46%、0%、46%,而雷阿倫的則是50%、40%、45%。

由此可以看出,這個(gè)問(wèn)題實(shí)際上是不具有貪心特性的,局部最優(yōu)并不一定能保證全局最優(yōu)。

本文由 @yyandbb415 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 做數(shù)據(jù)分析的誤區(qū)真的蠻多的,不過(guò)作者在這篇文章通過(guò)一個(gè)實(shí)際例子直接揭示了辛普森悖論現(xiàn)象是一篇很不錯(cuò)的參考文章。

    來(lái)自廣東 回復(fù)