大數(shù)據(jù)會(huì)說謊:看穿數(shù)據(jù)的真相

1 評(píng)論 9181 瀏覽 20 收藏 16 分鐘

編輯導(dǎo)語:如今在這個(gè)大數(shù)據(jù)時(shí)代,我們的日常都被計(jì)算在其中,最常見的就是線上購物軟件的算法,根據(jù)大數(shù)據(jù)對(duì)你進(jìn)行標(biāo)簽化,推送你可能喜歡的商品;本文作者詳細(xì)分析了大數(shù)據(jù)時(shí)代的雙刃劍,我們一起來看一下。

最近接連溫習(xí)了幾本數(shù)據(jù)相關(guān)的書,作為數(shù)學(xué)系畢業(yè)的學(xué)生,雖然畢業(yè)多年都無緣從事數(shù)據(jù)相關(guān)的職業(yè),基礎(chǔ)的理論知識(shí)也基本化整為零,但我對(duì)數(shù)據(jù)一直都蠻感興趣的,在此也想分享下我的一些看法。

“一家公司宣布3003人持有該公司的股份,每人平均持有660股?!?/p>

乍一看,優(yōu)秀優(yōu)秀。

別急著鼓掌,這個(gè)令人驚嘆的數(shù)據(jù)背后還有另一信息沒有透露:“公司累計(jì)200萬股股票,其中三大股東的股份占了3/4,而剩下的3000人總共持有的股份只占1/4“。

同樣的,之前民間盛傳的騰訊人均月薪7.18萬,看起來是否也頗為可疑?

首先,這數(shù)據(jù)精確得讓人吃驚;其次,未加說明的平均數(shù)都是耍流氓;最后,即便你做了大樣本調(diào)查,可收入作為敏感信息,免不了參雜虛報(bào)和瞞報(bào)的情況,可信度也要大打折扣——這種話題作為媒體的噱頭聽聽就好,當(dāng)真了可是要傷心的。

但事實(shí)上,人容易為數(shù)據(jù)癡迷。

學(xué)生的能力不好評(píng)估,但考試成績(jī)和學(xué)位證書可以佐證,于是家長(zhǎng)們爭(zhēng)先恐后地幫孩子報(bào)了補(bǔ)習(xí)班;了解一個(gè)陌生人很難,但朋友圈和Facebook提供了一個(gè)渠道,于是我們都執(zhí)著于在網(wǎng)上塑造一個(gè)理想人設(shè)。

看吧,我們一直置身于大數(shù)據(jù)的熱潮中。

我的大學(xué)朋友基本上都在從事大數(shù)據(jù)計(jì)算相關(guān)的職業(yè),平常我們閑聊時(shí),或多或少會(huì)感嘆大數(shù)據(jù)給我們帶來的雙刃劍。

在充斥數(shù)據(jù)和算法的年代,究竟是數(shù)據(jù)為我,還是我為數(shù)據(jù)?數(shù)據(jù)是不是就等于我們自己?這個(gè)命題太大,我只能隨波逐流。

今天主要是想認(rèn)真探討下,這么多年來,你我曾經(jīng)陷入的數(shù)據(jù)陷阱以及我們能采取的行動(dòng)。

一、數(shù)據(jù)會(huì)說謊?

大數(shù)據(jù)是個(gè)好工具,尤其到了現(xiàn)在,它早已被放大了光環(huán),給我們帶來了諸多便利;你瀏覽過什么,對(duì)什么感興趣,推薦算法總是能精準(zhǔn)地匹配你的口味(或者說,大數(shù)據(jù)定義了你的口味)。

當(dāng)然,唱衰大數(shù)據(jù)的人也不少:“數(shù)據(jù)只是證實(shí)了顯而易見的事實(shí)?!辈簧偃藢?duì)此不屑一顧。

然而,我最近看到的幾個(gè)案例,都不止一次地讓我啼笑皆非:數(shù)據(jù)一次又一次地證明了很多我們想當(dāng)然的推測(cè)跟真實(shí)是不相符的。

你可能會(huì)認(rèn)為,在暴力電影放映后的當(dāng)天,那些有攻擊性的年輕人會(huì)更易怒,犯罪率鐵定會(huì)上升;但事實(shí)上,有經(jīng)濟(jì)學(xué)家通過數(shù)據(jù)分析,在電影結(jié)束后到次日的凌晨,犯罪率持續(xù)在下降;一方面暴力電影讓潛在的暴力人群離開了街頭,另一方面由于影院幾乎不供應(yīng)酒類飲品,減少了酒精有關(guān)的犯罪活動(dòng)。

大數(shù)據(jù)為人我們提供了一個(gè)新維度的視角,覆蓋面較單一的意會(huì)更廣,讓我們對(duì)世界的認(rèn)知也更立體了。

也正是因?yàn)槿绱?,我在看一些調(diào)研報(bào)告的時(shí)候發(fā)現(xiàn),這把雙刃劍的另一面,終于還是現(xiàn)出了他的真面目。

1. 相關(guān)性而非因果性

大數(shù)據(jù)顯示,某地某時(shí)段起飛了多少只白天鵝,據(jù)此推斷天鵝都是白的。

這顯然太扯了,但你敢拍著胸脯保證自己沒掉過這類圈套嗎?

甚至有些時(shí)候,如果我們無法證明自己想要證明的東西,下意識(shí)地就會(huì)展示一些其他東西,并假裝他們是一樣的;畢竟現(xiàn)在統(tǒng)計(jì)數(shù)據(jù)讓人目不暇接,幾乎沒人會(huì)察覺到其中的差別,不是嗎?

說到這我也不得不反思,我難道沒有過嗎?掀開這層遮羞布,坦白說,不少情況下當(dāng)我試圖爭(zhēng)取更多的權(quán)益和話語權(quán)時(shí),不自覺地也使了這樣的把戲。

運(yùn)用“看似相關(guān)的數(shù)據(jù)”作為論據(jù),要么是無心之失,要么就是慣用伎倆。

學(xué)生時(shí)代當(dāng)我還對(duì)數(shù)學(xué)建模競(jìng)賽上心時(shí),考題要求預(yù)測(cè)一個(gè)數(shù)值變化趨勢(shì),我當(dāng)時(shí)就默默發(fā)現(xiàn)了一個(gè)“秘密”,即/——給你一組數(shù)據(jù),你可以使用任一種范式去找到一個(gè)看似好使的指標(biāo),但換一組數(shù)據(jù),這個(gè)指標(biāo)就失靈了;變量太多,你能試驗(yàn)的樣本太少,于是你很容易發(fā)現(xiàn)這種假相關(guān)性,更別提你想基于這個(gè)相關(guān)性去推導(dǎo)因果性了。

退一步來說,即便我們通過一個(gè)人平常訪問網(wǎng)站的內(nèi)容,監(jiān)察到他有了犯罪的沖動(dòng),那到底是抓他還是不抓他?如果我們不能保證自己是正義的,那么我們也不會(huì)在意自己是否邪惡。

有些人很擅長(zhǎng)利用現(xiàn)有數(shù)據(jù)去預(yù)估接下來的數(shù)據(jù)變化,可能是多維度的觀察,也可能是有了足夠的數(shù)據(jù)樣本;但是,數(shù)據(jù)會(huì)變,我們會(huì)變,如果你迷信數(shù)據(jù)而忽視本質(zhì),那么大數(shù)據(jù)就不能用于預(yù)測(cè),只能預(yù)測(cè)有意會(huì)的預(yù)測(cè)。

重申一遍,大數(shù)據(jù)只能提供相關(guān)性,而非因果性;具有純粹因果關(guān)系的事情很少,因?yàn)楝F(xiàn)在事物間的聯(lián)系變得越來越復(fù)雜,影響因素有很多。真正的數(shù)據(jù)是工具,而非結(jié)論或原因。

2. 數(shù)據(jù)太“薄”

人們總會(huì)錯(cuò)誤地認(rèn)為無論樣本數(shù)量多么少,都能反映種族的特征。

我在讀達(dá)萊爾·哈夫的《統(tǒng)計(jì)數(shù)據(jù)會(huì)說謊》時(shí),書中提到一個(gè)經(jīng)典的醫(yī)療實(shí)驗(yàn):

一個(gè)地區(qū)的450名兒童注射了小兒麻痹癥疫苗,另有680名兒童作為對(duì)照沒有接受注射;不久之后,該地區(qū)出現(xiàn)了傳染病;注射過疫苗的兒童中沒有一個(gè)患上小兒麻痹癥。

看到這,你可能要給出小兒麻痹疫苗的有效性的結(jié)論了。

但,這個(gè)實(shí)驗(yàn)還有后續(xù)。事實(shí)上,對(duì)照組中也沒有兒童患?。?/p>

縱觀小兒麻痹癥的發(fā)病率,本來就比較低,這么大規(guī)模的群體中只可能出現(xiàn)兩例患病者;因此,從一開始這個(gè)實(shí)驗(yàn)就注定毫無意義;如果想獲得任何有意義的結(jié)論,實(shí)驗(yàn)組需要用比這個(gè)群體多15~20倍的兒童做樣本。

事實(shí)上,我們現(xiàn)在看到的很多市場(chǎng)調(diào)研報(bào)告,里面不乏通過小樣本去給出均值結(jié)論的例子,比如我前兩天看的90后消費(fèi)人群分析:

  • “84%的90后有理財(cái)習(xí)慣“;
  • “34%的90后已購房“;
  • “60%以上的90后將消費(fèi)貸用于基本生活和休閑“……

然后我翻了下數(shù)據(jù)來源,樣本是5000人,挺多的是不是?而90后據(jù)最新數(shù)據(jù)研究已有3.62億……

只有試驗(yàn)的樣本數(shù)目足夠龐大,平均數(shù)定律才是一個(gè)有用的描述或猜測(cè)。

二、看穿數(shù)據(jù)的真相

如果說前文展現(xiàn)的是目前普遍存在的數(shù)據(jù)行騙手段,那么接下來我們一起來試著看下如何去看穿數(shù)據(jù)的真相,避免被一些似是而非的東西所迷惑;畢竟“騙子”都已經(jīng)熟練掌握了這些詭計(jì),老實(shí)人又怎能不學(xué)點(diǎn)防御之術(shù)呢?

《統(tǒng)計(jì)數(shù)據(jù)會(huì)說謊》里給我提供了一個(gè)很好的思路,下次當(dāng)我們接觸到一些數(shù)據(jù)時(shí),不妨提出4個(gè)問題試試:

1. 是誰這么說,他怎么知道?

這個(gè)結(jié)論怎么來的?找到有意識(shí)和無意識(shí)的偏差。

比如你在機(jī)場(chǎng)分發(fā)消費(fèi)問卷調(diào)查,那你可能就犯了選擇誤差,因?yàn)樽w機(jī)的人相對(duì)而言比一般人更富裕些,消費(fèi)水平自然會(huì)高一些。

又或者,你發(fā)現(xiàn)某個(gè)屋子里人均身高偏高,然后打開門一看,姚明坐那呢;你選擇的樣本里有過高或過低的數(shù)據(jù),樣本不平均,就會(huì)出現(xiàn)這類錯(cuò)誤。

當(dāng)然還有一種可能,你為了使自己拿到有利的結(jié)論,選對(duì)自己有利的數(shù)據(jù),改變衡量的標(biāo)準(zhǔn),再使用不恰當(dāng)?shù)臏y(cè)算方式;比如明明是中位數(shù)更能說明問題,卻使用了均值來計(jì)算,最后再用“平均數(shù)”來掩蓋事實(shí)真相。

這些你能想到的伎倆,別人當(dāng)然也能。

2. 漏掉了什么?

在我們閱讀分析報(bào)告時(shí),大多數(shù)情況下我們無法得知樣本中包含了多少案例;能看到的就是一張張繪制完美的圖表,配上鏗鏘有力的結(jié)論,看起來多么令人信服。

然而,如果缺乏可信的測(cè)算方式,比如概率誤差、標(biāo)準(zhǔn)誤差的檢驗(yàn),那么可信度就要大打折扣了。

尤其要留心那些未加說明的平均數(shù),因?yàn)闊o論在什么時(shí)候,均值和中位數(shù)都有著本質(zhì)的差別。

一份報(bào)告曾指出“過去25年內(nèi)因癌癥死亡的人數(shù)大幅增長(zhǎng)”,很嚇人對(duì)不對(duì)?

但我們都知道,以前那些“原因不明”的病癥現(xiàn)在都被確診為癌癥,這是其一;此外尸體解剖更加頻繁,診斷也就更為確切;現(xiàn)在人均壽命延長(zhǎng),因此更多人會(huì)活到容易患癌癥的年齡;最后,報(bào)告給出的數(shù)據(jù)應(yīng)該是死亡總?cè)藬?shù)而非死亡率——畢竟現(xiàn)在的人口總數(shù)比以前要多。

3. 偷換概念了嗎?

搞亂因果關(guān)系,拿詞義做文章,都是偷換概念的方式。

早在前幾年,人們普遍認(rèn)為女博士的婚育年齡普遍較學(xué)歷較低的女性會(huì)更大,女博士里的剩女比例也更高;后來“剩女”一詞被人詬病后,現(xiàn)在被冠以“單身貴族”的頭銜,聽起來似乎還蠻前衛(wèi)的?

這算是很明顯的偷換概念了,本質(zhì)上想傳達(dá)的觀點(diǎn)并沒有變化;而更多時(shí)候,在更為專業(yè)的領(lǐng)域,遇到偷換概念的場(chǎng)合,你我可能并不能一眼識(shí)別。

4. 這是否合乎情理?

那么,究竟要怎樣做才能不被毫無意義的結(jié)論愚弄?你總不能指望每個(gè)人都成為統(tǒng)計(jì)學(xué)家,親自分析數(shù)據(jù)吧?

反其道而行,你要去捕捉?jīng)]有被透露的數(shù)據(jù),留心這部分的數(shù)據(jù),就能看穿這種別有用心的手段。

此外,截止到目前為止的趨勢(shì)或許是事實(shí),但未來的趨勢(shì)不過是我們的猜測(cè);你不能拿現(xiàn)有的趨勢(shì)直接去臆測(cè)未來的趨勢(shì),畢竟所有的事情不會(huì)一成不變。

比如說現(xiàn)在有個(gè)新聞是這么報(bào)道的:在大霧天氣的一周內(nèi),某地區(qū)的死亡人數(shù)猛增至2800人……

仔細(xì)想下,這一周內(nèi)死亡率比平時(shí)高這么多難道不是例外嗎?所有的事情都處在變化之中。往下看,隨后幾周情況如何?死亡率降至平均水平以下,是否意味著大霧中死去的人本來就已不久于人世?

看吧,這個(gè)數(shù)據(jù)的確讓人印象深刻,但由于沒有其他數(shù)據(jù)可以對(duì)比,所以這個(gè)數(shù)據(jù)也變得沒什么意義。

三、數(shù)據(jù)是把雙刃劍

寫這篇文有點(diǎn)殺敵一萬自損八千的感覺,前文提到的數(shù)據(jù)陷阱,無論是假相關(guān)性、亂因果性,還是拿著薄數(shù)據(jù)去佐證對(duì)自己有利的觀點(diǎn);這些我曾經(jīng)陷入的圈套,同樣也在某些時(shí)刻成為了我“行騙”的工具。

究竟要怎么去用數(shù)據(jù)呢?我已許久沒系統(tǒng)性地做過數(shù)據(jù)挖掘和統(tǒng)計(jì)分析,但我相信大數(shù)據(jù)廣闊的應(yīng)用前景,也在大數(shù)據(jù)給出的相關(guān)性規(guī)律里獲益匪淺;我也在反思,在數(shù)據(jù)至上的時(shí)代,我是不是過少地發(fā)現(xiàn)它的局限性,過分地依賴它給的結(jié)論。

至于那些拿大數(shù)據(jù)用以評(píng)判個(gè)人、組織乃至社會(huì),特別是關(guān)乎人性抉擇、生殺進(jìn)退的大事,我們是否又能接受這些冰冷的數(shù)據(jù)澆滅人情的熱度?

一起拭目以待吧。

再次強(qiáng)推最近讀完的這三本書,給了我對(duì)于數(shù)據(jù)和認(rèn)知上更多的啟發(fā):

  • 賽思·斯蒂芬斯:《人人都在說謊:赤裸裸的數(shù)據(jù)真相》
  • 斯科特·佩奇《多樣性紅利》
  • 達(dá)萊爾·哈夫《統(tǒng)計(jì)數(shù)據(jù)會(huì)說謊》

#專欄作家#

林壯壯,微信公眾號(hào):健壯的大姐姐(ID: is_strong),人人都是產(chǎn)品經(jīng)理專欄作家。騰訊高級(jí)產(chǎn)品經(jīng)理,專注于To B服務(wù)項(xiàng)目管理和行業(yè)分析,歡迎各路好漢一起探討。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自pexels,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這些問題在《思考快與慢》中都有出現(xiàn)!這個(gè)有沒有可能是數(shù)據(jù)本身沒有任何偏好,有偏好的是人的主動(dòng)選擇。人主動(dòng)選擇造成了數(shù)據(jù)在說謊!

    來自浙江 回復(fù)