辛普森悖論與“人生的三條路”
關(guān)于這“短期容易、長期較難的道路”,上帝是慈悲的,令這路可期盼;上帝是智慧的,讓這路不簡單。
概 述
有新聞?wù)f美國iPhone用戶忠誠度沒Android高,但該國iPhone的占有率卻是在上漲。
兩個數(shù)據(jù)都是“真實(shí)”,原因何在?
辛普森悖論揭示了數(shù)據(jù)會說謊的秘密。
本文最后少不了來一碗實(shí)用主義的雞湯,扯了一下“懷才不遇”的統(tǒng)計學(xué)原理,和逆向運(yùn)用辛普森悖論的人生第三條路。
01
意外嗎?統(tǒng)計顯示iPhone用戶忠誠度沒Android高。
據(jù)CIRP分享的最新統(tǒng)計數(shù)據(jù),截至9月份的前12個月,(美國市場)Android用戶的忠誠度(用戶留存率)為92%,而iOS則是89%。
據(jù)了解,CIRP的季度統(tǒng)計以500名真實(shí)消費(fèi)者為樣本。
我好奇查了一下,CIRP公布了2017年Q4美國智能手機(jī)市場,iPhone的市場份額達(dá)39%,與2016年四季度的34%相比,同比增長了5%。由上圖我們也可以看到,自2017年底以來,iOS用戶的忠誠度是持續(xù)上升的。
既然iPhone用戶更不忠誠,投奔Android陣營的人不該更多嗎?為何市場份額不降反升?
這里的確會有一個令人“疑惑”之處。
讓我們簡單算一下:
- 500個用戶,按照最新市場份額,iPhone用戶有195人,Android用戶有305人;
- Android用戶的忠誠度(用戶留存率)為92%,而iOS則是89%。所以叛逃率分別為8%和11%;
- 按此計算,Android用戶叛逃了305*8%=24.4人,iPhone用戶叛逃了195*11%=21.45人。
所以,真相是,盡管所謂“忠誠度”更低,但iPhone用戶的凈流入人數(shù)還是更多。
02
這讓我想起了以前曾經(jīng)寫過的辛普森悖論。
斯坦福講義里的例子:某大學(xué)歷史系和地理系招生,共有13男13女報名。歷史系5男報名錄取1男,8女報名錄取2女。地理系8男報名錄取6男,5女報名錄取4女。
- 歷史系:1/5(男) < 2/8 (女)
- 地理系:6/8(男) < 4/5 (女)
合 計:7/13(男)> 6/13 (女)
上面的數(shù)據(jù)給出一個令人迷惑的結(jié)論:盡管每個系女生的錄取率都更高,但整體算下來男生的錄取率卻更高。
1. 每個系的女生的錄取率卻都高于男生錄取率
歷史系女生的錄取率(2/8)大于男生錄取率(1/5);地理系女生錄取率(4/5)也高于男生錄取率(6/8)。
2. 整個學(xué)校統(tǒng)計,男生錄取率(7/13)高于女生錄取率(6/13)
當(dāng)人們嘗試探究兩種變量(比如新生錄取率與性別)是否具有相關(guān)性的時候,會分別對之進(jìn)行分組研究。然而,在分組比較中都占優(yōu)勢的一方,在總評中有時反而是失勢的一方。該現(xiàn)象于20世紀(jì)初就有人討論,但一直到1951年,E.H.辛普森在他發(fā)表的論文中闡述此一現(xiàn)象后,該現(xiàn)象才算正式被描述解釋。后來就以他的名字命名此悖論,即辛普森悖論。
關(guān)于上題“錄取率”,倒過來想容易很多,歷史系女生被淘汰6人,男生被淘汰4人。地理系女生被淘汰1人,男生被淘汰2人。男生在基數(shù)較大的歷史系申請人群中,絕對錄取數(shù)更多,從而令整體淘汰率更低。
為了避免辛普森悖論出現(xiàn),就需要斟酌個別分組的權(quán)重,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。
- 關(guān)于基數(shù)差異所帶來的相關(guān)思考;
- 另外一種基數(shù)差異所帶來的認(rèn)知陷阱,就是卡尼曼和特維爾斯基提出的“基礎(chǔ)概率謬誤”(Base Rate Fallacy)。
03
《簡單統(tǒng)計學(xué)》里寫道:混雜因素常常出現(xiàn)在使用觀測性數(shù)據(jù)的研究中,因?yàn)槿藗儫o法通過現(xiàn)實(shí)的方法使這些因素維持恒定。
所以,我們應(yīng)該牢記:一項(xiàng)研究的結(jié)論有可能受到混雜因素的干擾。
該書作者加里.史密斯說,辛普森悖論實(shí)際上是更早時候由兩位統(tǒng)計學(xué)家發(fā)現(xiàn)的。
辛普森悖論指的是:當(dāng)聚合數(shù)據(jù)被分解時其中的模式發(fā)生逆轉(zhuǎn)的現(xiàn)象。
該書還舉了幾個有趣的例子:
(1)阿拉斯加航空公司在五個存在競爭的主要機(jī)場,擁有優(yōu)于另一家航空公司的準(zhǔn)點(diǎn)運(yùn)行記錄,但其總體準(zhǔn)點(diǎn)記錄則不如競爭對手,為什么?
因?yàn)榘⒗辜雍娇論碛性S多飛往西雅圖的航班,而西雅圖的天氣問題經(jīng)常導(dǎo)致飛機(jī)延誤 。
(2)對于每個年齡群體,瑞典的女性死亡率都要低于哥斯達(dá)黎加,但瑞典擁有更高的女性總體死亡率,為什么?
因?yàn)槿鸬鋼碛懈嗟睦夏昱?(老年人擁有相對較高的死亡率 ) 。
(3)一項(xiàng)醫(yī)學(xué)研究發(fā)現(xiàn),一種手術(shù)對于小型和大型腎結(jié)石的治療成功率均高于另一種手術(shù),但其總體成功率卻不如另一種手術(shù),為什么 ?
因?yàn)樗?jīng)常被用于治療大型腎結(jié)石(大型腎結(jié)石的治療成功率相對較低 ) 。
以上例子之所以存在辛普森悖論,是因?yàn)槟撤N混雜因素對聚合數(shù)據(jù)產(chǎn)生了影響 。更值得學(xué)習(xí)的是,加里.史密斯寫道:這并不意味著分解數(shù)據(jù)永遠(yuǎn)優(yōu)于聚合數(shù)據(jù) ,舉例如下:
在下表中,對兩個假想的棒球選手進(jìn)行了比較,將數(shù)據(jù)分解成了單日和雙日。例如 :科里在雙日的 1 0 0次擊球中擊出 2 0個安打 ,安打率為 2 0 / 1 0 0 = 0 . 2 0 0 。
在這些編造出來的數(shù)據(jù)中 ,兩名選手恰巧在單日擁有更好的表現(xiàn) ,科里恰巧在單日擁有更多的擊球次數(shù) 。因此 ,雖然吉米在單雙日都具有更高的安打率 ,但是整個賽季安打率更高的人是科里 。
根據(jù)這些數(shù)據(jù) ,你認(rèn)為誰是更好的擊球手 ?
正確答案是:科里。因?yàn)槲覀儧]有理由認(rèn)為單雙日是一個有意義的混雜因素 ,這只是數(shù)據(jù)中的一種巧合而已 。
在此情況下,聚合數(shù)據(jù)可以更加準(zhǔn)確地衡量誰是更好的擊球手 。
04
下面介紹一個更“實(shí)戰(zhàn)”的案例,這段內(nèi)容來自“數(shù)數(shù)科技”(公眾號:ThinkingData)。
這個例子其實(shí)是倒過來說辛普森悖論:總評中占優(yōu)勢的,在每個分組比較中反而都占劣勢。
工作中的典型案例:
某產(chǎn)品的用戶中有10000人使用Android設(shè)備、5000人使用iOS設(shè)備,整體的付費(fèi)轉(zhuǎn)化率應(yīng)該是5%。細(xì)分發(fā)現(xiàn)其中IOS設(shè)備的轉(zhuǎn)化率僅為4%,而Android設(shè)備則是5.5%?!奥斆鳌钡臄?shù)據(jù)分析師得出結(jié)論:iOS平臺的用戶付費(fèi)轉(zhuǎn)化率低下,建議放棄IOS平臺的研發(fā)。
一般來說,iOS平板的付費(fèi)轉(zhuǎn)化率比Android平板高出很多,而iOS手機(jī)的轉(zhuǎn)化率也相對更好。這種情況下,設(shè)備類型就是復(fù)雜變量,如果數(shù)據(jù)是根據(jù)設(shè)備類型得到,那么其他的數(shù)據(jù)就可能被完全忽略。
接下來我們來對比這一組數(shù)據(jù):
由此可見,Android設(shè)備轉(zhuǎn)化率無論在平板端還是在手機(jī)端的轉(zhuǎn)化率都小于iOS設(shè)備,這也跟我們的常規(guī)預(yù)期相符。
當(dāng)計算全設(shè)備情況時,Android的轉(zhuǎn)化比例為550/10000=5.5%,iOS的轉(zhuǎn)化比例只有200/5000=4.0%。這也是題中“聰明”的數(shù)據(jù)分析師得出iOS版本應(yīng)該下線的根源。
原因與應(yīng)對策略:誤區(qū)產(chǎn)生的原因說起來也很簡單,就在于將“值與量”兩個維度的數(shù)據(jù),歸納成了“值”一個維度的數(shù)據(jù),并進(jìn)行了合并。
(從上上圖我們可以看到,基數(shù)較大的Android平板把“整體轉(zhuǎn)化率”的數(shù)據(jù)帶偏了。)
如果要避免“辛普森悖論”給我們帶來的誤區(qū),就需要斟酌個別分組的權(quán)重,以一定的系數(shù)去消除因分組資料基數(shù)差異所造成的影響。而在實(shí)際轉(zhuǎn)化例子中,就需要用如“ARPU”、“ARPPU”這樣看似相似實(shí)際上有很大差異的指標(biāo)來進(jìn)行分割。
同樣地,如果要更客觀分析產(chǎn)品的運(yùn)營情況,就需要設(shè)立更多角度去綜合評判。還是拿上述的設(shè)備轉(zhuǎn)化率為例,產(chǎn)品層考慮轉(zhuǎn)化的前提會優(yōu)先考慮分發(fā)量、用戶量、運(yùn)營思路、口碑等等。而往往為了實(shí)現(xiàn)最后的轉(zhuǎn)化需要,需要更多前置目標(biāo)做鋪墊。
A/B測試中的注意點(diǎn):
聯(lián)想到產(chǎn)品運(yùn)營的實(shí)踐,一個常見的A/B測試誤判例子是這樣的:拿1%用戶跑了一個重大版本,發(fā)現(xiàn)試驗(yàn)版本購買率比對照版本高,就說試驗(yàn)版本更好,我們應(yīng)該發(fā)布試驗(yàn)版本。
而事實(shí)上,我們選取的試驗(yàn)組里往往會挑選那些樂于交流、熱衷產(chǎn)品、又或者是付費(fèi)率高粘性高的用戶,把他們的數(shù)據(jù)與全體用戶對比是不客觀的。當(dāng)最后發(fā)布試驗(yàn)版本時,反而可能降低用戶體驗(yàn),甚至造成用戶留存和營收數(shù)據(jù)的雙雙下降。
收獲與總結(jié):
避免辛普森悖論的關(guān)鍵是要同時參考不同用戶間的事實(shí)全貌。
- 第一,準(zhǔn)確的用戶分群在數(shù)據(jù)分析中是非常重要的,尤其是在免費(fèi)產(chǎn)品當(dāng)中,平均用戶不僅不存在,而且是誤導(dǎo)研發(fā)的因素之一,所以關(guān)鍵在于利用特征將用戶進(jìn)行合理劃分。
- 第二,在一個具體的產(chǎn)品中,普適型的數(shù)據(jù)(如粗暴的對比IOS和Android總體情況)是沒有多大參考意義的,一定要細(xì)分到具體設(shè)備、國家、獲取渠道、消費(fèi)能力等等再進(jìn)行比對才有價值。
- 第三,斟酌個別分組的權(quán)重,以一定的系數(shù)去消除以分組資料基數(shù)差異所造成的影響,同時必需了解該情境是否存在其他潛在要因而綜合考慮。
05
我們認(rèn)為數(shù)據(jù)科學(xué)家和分析師是客觀的,但數(shù)據(jù)可能會撒謊,如西諺所言:“通往地獄的道路是用好意鋪就的”。
亞馬遜歐洲商業(yè)智能部門負(fù)責(zé)人、資深數(shù)據(jù)科學(xué)家KarolisUrbonas,研究了數(shù)據(jù)科學(xué)家們應(yīng)該知道的三種常見的“謊言”。
以下是引用他的觀點(diǎn):
1. 平均無處不在的平均值
平均值這種過度使用的聚合度量造成了無處不在的謊言,無論何時使用平均指標(biāo)–除非底層數(shù)據(jù)正常分布(這種狀況很少出現(xiàn))——平均值都無法反應(yīng)現(xiàn)實(shí)的任何有用信息。當(dāng)數(shù)據(jù)分布偏斜時,平均值將受到影響,沒有任何意義。平均值不是一個強(qiáng)大度量工具,容易受到異常值與正態(tài)分布有偏差的影響。
2. 將數(shù)據(jù)擬合為假設(shè)–證實(shí)性偏見
如果數(shù)據(jù)科學(xué)家不得不快速得到結(jié)果,他們不得不快速回答或者解決問題,這意味著他們會把發(fā)現(xiàn)的第一個雜散相關(guān)就當(dāng)做答案。在這些情況下,數(shù)據(jù)科學(xué)家搜索證據(jù)以確認(rèn)假設(shè),即“為假設(shè)尋找數(shù)據(jù)”。
3. 并不存在的模式
人類的大腦善于在混亂中發(fā)現(xiàn)模式或圖案–有時,它們開始發(fā)現(xiàn)并不存在的模式,這是數(shù)據(jù)科學(xué)家的致命陷阱。
說到數(shù)據(jù)會說謊,最有欺騙性的的例子莫過于統(tǒng)計學(xué)中著名的辛普森悖論了,正如前面兩段所提及的。
06
假如我們的工作與數(shù)據(jù)和統(tǒng)計無關(guān),辛普森悖論有何意義呢?
辛普森悖論就像是欲比賽100場籃球以總勝率評價好壞,于是有人專找高手挑戰(zhàn)20 場而勝1場,另外80場找平手挑戰(zhàn)而勝40場,結(jié)果勝率41%,另一人則專挑高手挑戰(zhàn)80場而勝8場,而剩下20場平手打個全勝,結(jié)果勝率為28%,比 41%小很多,但仔細(xì)觀察挑戰(zhàn)對象,后者明顯較有實(shí)力。
——百度百科
量與質(zhì)是不等價的,無奈的是量比質(zhì)來得容易量測,所以人們總是習(xí)慣用量來評定好壞,而此數(shù)據(jù)卻不是重要的。
除了質(zhì)與量的迷思之外,辛普森悖論的另外一個啟示是:
如果我們在人生的抉擇上選擇了一條比較難走的路,就得要有可能不被賞識的領(lǐng)悟,所以這算是懷才不遇這個成語在統(tǒng)計學(xué)上的詮釋。
關(guān)于道路難易的選擇,有三種人生路線:
(1)較難的道路
例如愛因斯坦,他說,科學(xué)研究好像鉆木板,有人喜歡鉆薄的,而我喜歡鉆厚的。類似的職業(yè)有科學(xué)家、首富、體育冠軍、明星基金經(jīng)理、超級巨星,等等。
這類道路,獲勝概率極低,付出代價極大。也容易落入“懷才不遇”的境地。當(dāng)然,在一個富足的、有安全感的社會里,會有更多的人選擇這條路。期待我們亦如是。
此謂:Think big!
(2)較容易的道路
平凡之路,是你我普通人主動、或者被動的選擇。過過日子,陪好家人,自得其樂,不危害社會,也沒啥不好。比較是萬惡之源,這條道路上的人的絕大多數(shù)苦惱,來自與第一條道路人士的比較。
(3)短期容易長期較難的道路
這種道路眼下看起來并不難,人人可以走,但最終堅(jiān)持下來的卻極少。
巴菲特在1989年給股東的信里寫道:
我們之所以能夠獲得現(xiàn)在這樣的成功,是因?yàn)槲覀兛偸菍W⒂诎l(fā)現(xiàn)那些一英尺高的,我們能夠跨越的障礙,而不是因?yàn)槲覀儷@得了什么能夠一舉越過七英尺的能力。
雖然說起來似乎有點(diǎn)不公平,但是無論在經(jīng)營還是投資當(dāng)中,往往都是堅(jiān)持那些簡單和顯而易見的東西比解決難題更賺錢。如同上面的“辛普森悖論”里提及的籃球比賽,長期投資這類事,是可以繞開“專挑高手挑戰(zhàn)”之路的。
在某種意義上,價值投資,長線思維,其實(shí)是逆向運(yùn)用了“辛普森悖論”,找到高確定性的小目標(biāo),看起來“分組比較”中沒什么優(yōu)勢,但利用時間的魔力,最終實(shí)現(xiàn)了總體統(tǒng)計上的最高回報。
選擇較容易的“一英尺高的橫桿”,去找平手挑戰(zhàn)籃球,并非逃避難題,專挑軟柿子捏,而是為了實(shí)現(xiàn)可重復(fù)、可持續(xù)的事情。只有在更少的、更重要的變量分析上持續(xù)做到最好,才是提高整體投資回報確定性與大概率的最簡單、最樸素的方法。
此謂:Thinklong!
最終,正確的Long,都將變成Big。
最后
第三條道路,其實(shí)是前兩條道路的混合。其短期看起來是第二條路,長期看起來是第一條路。
對比“較難的道路”,理論上這條路普通人也有指望。在這條道路上,要取得非凡的成果,沒有必要非得做非凡的事情。但,反之,僅靠平庸的疊加,不管你多么拼命、堅(jiān)持,也未必能夠取得非凡的成果。
這其中需要天賦、勇氣、努力、熱愛、意志、運(yùn)氣和夢想。
深究下去,第二條路上的人,就條件而言與第三條路上的人并無二致。對于絕大多數(shù)資質(zhì)平庸的世人,第二條路是生活的常態(tài),第三條路是生活的希望。辛普森悖論是兩條路之間神秘鏈接的一種。
關(guān)于這“短期容易、長期較難的道路”,上帝是慈悲的,令這路可期盼;上帝是智慧的,讓這路不簡單。
作者:老喻在加,公眾號:孤獨(dú)大腦(ID:lonelybrain)
本文由 @老喻在加 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
- 目前還沒評論,等你發(fā)揮!