大數(shù)據(jù)比想象的不靠譜:數(shù)據(jù)驅(qū)動背后的謊言與欺騙

0 評論 5189 瀏覽 23 收藏 13 分鐘

每天早晨我都在謊言中開啟新的一天。

起床后我走進衛(wèi)生間,稱了一下自己的體重。這個數(shù)據(jù)會從中國制造的體重秤上同步到我手機中的 App 里面,并且最終進入蘋果的數(shù)據(jù)庫,我的體重數(shù)據(jù)將永久地存放在云端。

我進行這個稱量體重的儀式是因為感覺它能迫使我對于自己的體重保持誠實。它會阻止我找借口欺騙自己,比如說衣服不合身是因為洗的縮水了,而不是因為吃下去太多啤酒與奶酪。這些體重數(shù)據(jù)是真實無誤的,它們不是出自于我的主觀判斷,因此體重秤是不會說謊的。

當然了,我們都相信體重秤顯示的數(shù)字從技術(shù)層面上來看不應有假,這個數(shù)字就是當下我的真實體重,它就如同蛋糕菜譜上的配方表里的數(shù)字一樣是可靠的。

但是在一次次的稱體重中你會發(fā)現(xiàn),那個決定了一個人是標準還是臃腫,是瘦削還是肥胖的體重數(shù)字,其實是很容易被操縱的。

如果我想讓自己輕一些,我就會在上稱之前出去跑步流一身大汗,排出多余水分。如果我擔心自己減的太猛已經(jīng)超出了健身方案制定的標準,那么我就需要重新回到健康飲食當中,推遲稱重的時間,補充食物與充足的水,這樣子就可以看到體重數(shù)字又有所回升。

當然了,你所使用的這些干預體重的方法只會帶來增減 5 磅(約為 4.5 斤)左右的差別,但是對于某些和我一樣對于體重無比看重的人來說,這些小小的體重數(shù)字波動已經(jīng)足以讓我感覺自己確實有所轉(zhuǎn)變,從這個人??:

1445257931379

變成了這個人??

1445258035091

你也許覺得這只是個人生活方面的數(shù)字欺詐,世界上的其他數(shù)據(jù),比如說發(fā)表在公開學術(shù)期刊上的數(shù)據(jù)總沒那么容易被人為操縱吧。

不過如果你看到了最近刊登在美國權(quán)威學術(shù)期刊《科學》上面的一項研究,或許就不會這么認為了。該項目的研究人員對于已發(fā)表的 100 篇高質(zhì)量心理學論文中進行的實驗進行了復制,看看是不是能夠得出相同的數(shù)據(jù),而實驗結(jié)果是僅僅有 36% 的數(shù)據(jù)可以重現(xiàn)。換句話說,就算是換了另一批小心翼翼且專業(yè)的研究人員,也有三分之二的論文結(jié)果是不能被重現(xiàn)出來的。

「這個研究項目為我們提供了不少證據(jù),了解到在很多心理學研究論文中發(fā)現(xiàn)的結(jié)論仍然需要細致的工作去反復檢驗,看看這些結(jié)果到底是不是像我們知道的那樣確定?!?/p>

在如今的很多研究領(lǐng)域當中,科學家們會一直收集數(shù)據(jù),直到數(shù)據(jù)呈現(xiàn)出一種在統(tǒng)計學上顯著的模式,然后他們會使用這些經(jīng)過嚴格挑選的數(shù)據(jù)去發(fā)表論文。在學術(shù)圈里這種做法被稱作是「P 值篡改」(p-hacking),只要掌握一些數(shù)據(jù)操作的技巧,就可以讓數(shù)據(jù)虛高,得出一個在統(tǒng)計學上顯著且有意義的結(jié)果。在論文中常用的篡改數(shù)據(jù)的手法如下:

  • 通過中途的實驗分析決定是否要繼續(xù)收集數(shù)據(jù)
  • 記錄下許多因變量,并決定要選取報哪一個寫入報告
  • 擅自決定是否要添加或者刪除極端值
  • 對于實驗群體重新進行排除、組合或者是分離操作
  • 當分析結(jié)果已經(jīng)呈現(xiàn)出 P 值顯著時就立刻停止數(shù)據(jù)采集
  • 把上述所有加在一起,你就會發(fā)現(xiàn)知識產(chǎn)出的過程當中存在著如此明顯的問題。

當這些有問題的研究結(jié)論進入到 Facebook 驅(qū)動的社交媒體世界當中時,即便是一個小小的「P 值篡改」的研究也會迅速傳遍世界,而且不會有多少人表示懷疑。當一個普通人在快速瀏覽新聞的時候不會意識到那些「科學實驗得出」、「研究表明」其實就是扯淡,其研究結(jié)果根本經(jīng)不起檢驗,尤其是當這些說法出現(xiàn)在學術(shù)期刊上,就更不會引發(fā)懷疑了。

這就是所謂專業(yè)的科學研究!如果在學術(shù)研究領(lǐng)域當中都存在著數(shù)據(jù)作假,那么就更別提在數(shù)據(jù)驅(qū)動的商業(yè)領(lǐng)域情況會是如何了。

在令人嘖嘖稱奇的《國家的視角》(Seeing Like a State)一書中,展現(xiàn)了各國政府與其他大型機構(gòu)如何試圖減少世界當中存在的極端復雜性,將其歸為統(tǒng)計數(shù)據(jù)可以解釋的范疇里,并使得其國家或者組織的領(lǐng)導人能夠理解到底發(fā)生了什么。

作者 James C. Scott 在全書開頭使用了一則歷史當中真實的故事作為引子。在 18 世紀下半葉,普魯士的統(tǒng)治者們想要知道在自己森林茂密的國家中到底擁有多少「自然資源」。因此他們就開始著手計算了,他們在自己國家的版圖上畫出了一個巨大的表格,這樣就可以算出來在一個劃定的森林范圍當中可以產(chǎn)出多少板尺(譯者注:硬木板材的計量單位)的木材。至于森林的其他價值,比如說為人類和動物提供庇護,以及自身擁有的生態(tài)環(huán)境價值都被忽略不計。

真實的世界并不那么守規(guī)矩,普魯士統(tǒng)治者們得到的數(shù)據(jù)總是不完美。因此他們開始自己創(chuàng)造新的森林,在相同時間種下單一品種的樹木,這樣在森林當中就不會存在無法貨幣化的樹木了?!甘聦嵕褪窃谶@種幾何圖形的森林規(guī)劃背后有著國家力量的支撐,這種力量將原生的、真實的、包含多個物種且略顯混亂的森林變成了新型大一統(tǒng)森林,并且將森林劃分成網(wǎng)格狀進行統(tǒng)一管理?!筍cott 在書中如此寫道。

1445257763181

普魯士的森林全都變成了網(wǎng)格!這些人甚至把樹木按照嚴格的網(wǎng)格形狀種成整齊的一排。

德國的林務員們對于如何施肥以及管理樹木有著非??茖W的認識。普魯士的植樹造林計劃確實奏效,至少在接下來的 100 年里沒有出現(xiàn)什么問題。在全世界各地有很多人采用了普魯士這種統(tǒng)一管理森林的方法。

之后森林就開始大片的死去。

「在德國的這一植樹造林計劃中,那些無法形成最終商業(yè)價值的樹木品種被拋棄,以至于造成了后來樹木大片死亡的令人痛心的結(jié)果,這一局面只有在裸子植物被種下去之后才有可能得到扭轉(zhuǎn)?!?/p>

樹木生長需要依靠復雜的生態(tài)系統(tǒng)作為支撐,而這種系統(tǒng)的形成需要經(jīng)過數(shù)代微生物與物種內(nèi)部的相互作用培養(yǎng)而成,所有的這一切物種關(guān)系都被普魯士嚴格的植樹計劃給破壞殆盡。植物與微生物的營養(yǎng)周期被打斷,物種之間微妙的平衡一去不復返,在真實世界里隱藏著的運行規(guī)則只有在它消失時才會慢慢顯露出來。德國人發(fā)明了一個新詞匯去描述發(fā)生的這一切:Waldsterben,意思為森林的消逝。

有時候當我看看現(xiàn)在的世界,在很多情況下,人們僅憑得到的有限數(shù)據(jù)就去試圖掌控人類與其他生物之間無比復雜的關(guān)系。我很想知道是否我們也已經(jīng)步上了曾經(jīng)的普魯士的后塵,等待著下一個 Waldsterben 的時刻。

1445259123534

由廣告支撐的互聯(lián)網(wǎng)生態(tài)系統(tǒng)就是一個好例子。這種運作方式非常聰明:通過整個互聯(lián)網(wǎng)獲取人們的數(shù)據(jù),然后根據(jù)已知的信息向他們展示想要看的廣告。不僅如此,由于和傳統(tǒng)的廣播媒體與印刷媒體相比,人們的網(wǎng)上活動過程是可以跟蹤的,因此廣告主能夠越來越精確地掌握人們想要買些啥。顯然,在數(shù)據(jù)挖掘技術(shù)的支持下,在線廣告市場份額在不斷增長,已經(jīng)奪取了大部分其他傳統(tǒng)媒體所擁有的市場份額。很多新媒體公司不斷增長的估值都是建立在數(shù)字廣告市場將不斷增長的預期基礎(chǔ)上。

不過如果撕開這一層光鮮亮麗的外皮,就會發(fā)現(xiàn)其中顯而易見的問題。在那些數(shù)字廣告與宣傳視頻龐大流量的背后其實并非是真實的消費者,絕大部分都是軟件偽造出來的虛假點擊。

「這是一種讓虛假流量以假亂真的藝術(shù),它們會通過足夠的信息將自己偽造成一個看上去真實的用戶。由程序控制的廣告計費系統(tǒng)無法分辨點擊是來自真實的用戶還是機器人,也無法識別出那些擁有新鮮、原創(chuàng)內(nèi)容的網(wǎng)站與只會復制粘貼別人的文章與圖片的假網(wǎng)站?!?/p>

當然了,高端的媒體不需要做這種事情。但是便宜且由程序控制的計費廣告被虛假流量給蒙蔽了,虛假流量也拉低了整個在線媒體行業(yè)的廣告價格,這使得那些真心做新聞的網(wǎng)站依靠廣告費很難支撐自己的運行。同時,很多網(wǎng)站的用戶都非常反感這種商業(yè)模式,并且開始安裝廣告攔截器來對抗在線廣告。

廣告商與廣告技術(shù)公司只想要抓取用戶的數(shù)據(jù)去向他們投放精準匹配的廣告,他們唯一想做的事情就是讓自己投放的廣告更加具有針對性。但是從實際出發(fā),這種伴隨著廣告商不斷增長的欲望而發(fā)展出來的廣告模式勢必會以難以預料的方式去重塑網(wǎng)絡媒體的價值觀。

我們欺騙自己說數(shù)據(jù)不過是一個鏡頭,僅僅反映出我們的生活圖景,然而數(shù)據(jù)實際上已經(jīng)成為了在線廣告商業(yè)模式的引擎。廣告商獲取的用戶數(shù)據(jù)已經(jīng)改變了在線媒體業(yè)的運作方式。單以收集數(shù)據(jù)這種行為本身來看,它就不是一個中性的舉動,它是一種重塑在線媒體的方式。

也就是說我每天上稱量體重并不是為了獲知自己真實的體重,而是為了改變對于自己胖瘦的認知。這個謊言通常都是奏效的。

文章來源:FUSION,本文由 TECH2IPO?陳錚編譯

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!