大數(shù)據(jù)時(shí)代的數(shù)據(jù)價(jià)值迷思:新聞媒體的數(shù)據(jù)真的不如社交媒體?
社交媒體平臺(tái)巨大、更新速度快、內(nèi)容多樣,以致于人們都誤以為其承載的數(shù)據(jù)肯定也是龐大而又有價(jià)值的,新聞媒體的數(shù)據(jù)權(quán)威性在社交媒體時(shí)代遭受質(zhì)疑。但是,事實(shí)真的如人們所想的那樣嗎?社交媒體數(shù)據(jù)的價(jià)值真的比新聞媒體還要大嗎?其實(shí)不然。
由于為全球范圍內(nèi)的對(duì)話(huà)提供了廣泛的可能性,社交媒體如今成為“大數(shù)據(jù)”的代言人。平臺(tái)巨大的規(guī)模、超快的更新速度和多樣的內(nèi)容被視為大數(shù)據(jù)時(shí)代教科書(shū)級(jí)的范例。
但是,當(dāng)人們對(duì)社交媒體的數(shù)據(jù)價(jià)值格外重視,或許也該反向思考——社交媒體上的數(shù)據(jù),真的比新聞媒體這樣的傳統(tǒng)數(shù)據(jù)更多,更有價(jià)值嗎?
在互聯(lián)網(wǎng)數(shù)據(jù)領(lǐng)域深耕超過(guò)20年的互聯(lián)網(wǎng)企業(yè)家,及學(xué)者Kalev Leetaru,以Twitter為例撰文指出:社交媒體的數(shù)據(jù)價(jià)值可能被人們高估了,而新聞媒體則被低估。
本期筆者跟隨KalevLeetaru的視角,以嚴(yán)格的數(shù)據(jù)計(jì)算為支撐,破解大數(shù)據(jù)時(shí)代的數(shù)據(jù)價(jià)值迷思。
Kalev Leetaru:?jiǎn)讨稳A盛頓大學(xué)(George WashingtonUniversity)網(wǎng)絡(luò)與國(guó)土安全中心高級(jí)研究員,曾任谷歌云平臺(tái)開(kāi)發(fā)專(zhuān)家
社交媒體“大”數(shù)據(jù),沒(méi)有想象中那么大
在今天,人們把社交平臺(tái)看作大數(shù)據(jù)的縮影。
但是,值得注意的是:這些平臺(tái)對(duì)外部的透明度不高,意味著它們的印象構(gòu)建,實(shí)際上都是基于這些公司自己向公眾披露的數(shù)據(jù),和創(chuàng)造的美好概念,比如:“活躍用戶(hù)”。
這些數(shù)字一直在變化,概念也在不斷演變,但唯一的目的都是反映整個(gè)社交媒體生態(tài)最美好的一面。
人們對(duì)社交平臺(tái)的崇拜之情主要基于一個(gè)信念:它們的服務(wù)器擁有一個(gè)難以想象的大型全球人類(lèi)行為檔案。
但是,與過(guò)去作為數(shù)據(jù)來(lái)源的傳統(tǒng)媒體相比,社交媒體擁有的這個(gè)檔案真的大得多嗎?
就最近的事件來(lái)看,F(xiàn)acebook在去年開(kāi)放了一個(gè)大型數(shù)據(jù)集,為學(xué)者研究提供材料,其中包括:“1PB(千萬(wàn)億字節(jié))的數(shù)據(jù),儲(chǔ)存著全球Facebook用戶(hù),點(diǎn)擊過(guò)的幾乎所有公開(kāi)鏈接、點(diǎn)擊發(fā)生在何時(shí)、以及點(diǎn)擊的用戶(hù)是什么類(lèi)型的?!?。
但在專(zhuān)業(yè)人士的分析中指出:該數(shù)據(jù)集盡管是PB級(jí)別,但其在公布時(shí)預(yù)計(jì)僅包含300億行,大概是每周從3億帖子中生成200萬(wàn)個(gè)數(shù)據(jù)的增長(zhǎng)速度。
Facebook與Social Science One建立合作伙伴關(guān)系,向其開(kāi)放PB級(jí)別的用戶(hù)數(shù)據(jù),搭建業(yè)界與學(xué)界的橋梁。
對(duì)于許多研究人員來(lái)說(shuō),300億行聽(tīng)起來(lái)像是他們一生都分析不完的海量數(shù)據(jù)。然而,按照現(xiàn)代標(biāo)準(zhǔn),300億條記錄是一個(gè)相當(dāng)小的數(shù)據(jù)集,而PB級(jí)數(shù)據(jù)在大數(shù)據(jù)時(shí)代早已見(jiàn)怪不怪。
作為對(duì)比,Kalev Leetaru提出:自己的開(kāi)放數(shù)據(jù)項(xiàng)目GDELT已經(jīng)編制了一個(gè)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)自2018年3月以來(lái)已經(jīng)從全球新聞媒體主頁(yè)中收集超過(guò)850億個(gè)外鏈。換句話(huà)說(shuō),它只用了一半的時(shí)間,卻是Facebook數(shù)據(jù)集的2.8倍。
由Kalev Leetaru創(chuàng)建的GDELT是有史以來(lái)最大,最全面,最清晰的關(guān)于人類(lèi)社會(huì)的開(kāi)放數(shù)據(jù)庫(kù),每日監(jiān)控世界各地的新聞媒體更新。
社交媒體與新聞媒體相比,其數(shù)據(jù)方面的差距并不一定像人們想象得那么大。
之所以產(chǎn)生錯(cuò)誤的想象,僅僅是因?yàn)闅v來(lái)缺乏將新聞媒體視為大數(shù)據(jù)工具的習(xí)慣。而相比之下,社交媒體從一開(kāi)始就積極地將自己與大數(shù)據(jù)掛鉤,并在建設(shè)上最大限度地與數(shù)據(jù)分析靠攏。
Twitter的“大”數(shù)據(jù)庫(kù),研究?jī)r(jià)值有限
既然社交媒體在數(shù)據(jù)量上,并沒(méi)有人們想象得那樣無(wú)敵,那么,在數(shù)據(jù)的研究?jī)r(jià)值層面表現(xiàn)又如何呢?
社交媒體巨頭Twitter雖然只成立了短短13年,但數(shù)千億條推文賦予它厚度,每天成千上萬(wàn)人發(fā)推賦予它速度,而文字、圖像和視頻的混合則豐富了它的維度。在全球范圍內(nèi),Twitter都絕對(duì)稱(chēng)得上這場(chǎng)大數(shù)據(jù)革命重要的注腳。
大量學(xué)者使用Twitter的數(shù)據(jù)進(jìn)行研究,而KalevLeetaru指出:在Twitter的海量數(shù)據(jù)中,有研究?jī)r(jià)值的部分其實(shí)有限。
Twitter本身不定期公布推文數(shù)量的相關(guān)數(shù)據(jù)。然而,根據(jù)先前的研究推斷,可以合理地估計(jì):自13年前該平臺(tái)成立以來(lái),推文數(shù)量已累計(jì)超過(guò)一萬(wàn)億條。
乍一看,一萬(wàn)億是個(gè)非常龐大的數(shù)字,但從內(nèi)容的角度考慮,推文實(shí)際上很小。因?yàn)楫吘顾皇且粋€(gè)最多包含140個(gè)字符的文本。
這意味著:即使推文總量大,但每條推文傳遞的信息其實(shí)很少。
進(jìn)一步來(lái)看,甚至很少有推文是接近140個(gè)字符的,每條英語(yǔ)推文平均包含34個(gè)字符,而日語(yǔ)推文平均僅包含15個(gè)字符。
此外,雖然Twitter的原始數(shù)據(jù)非常大,但其中只有4%是推文文本數(shù)據(jù)。由于大多數(shù)針對(duì)Twitter的分析是關(guān)注推文的文本,所以對(duì)社會(huì)分析有用的數(shù)據(jù)量其實(shí)非常小。
一萬(wàn)億條140個(gè)字符的推文,也只產(chǎn)生140TB(太字節(jié))的數(shù)據(jù)。而實(shí)際情況是,在2012年,Twitter上的推文平均長(zhǎng)度為74B(字節(jié))。
這意味著:那萬(wàn)億個(gè)推文的文本轉(zhuǎn)化為數(shù)據(jù),只有74TB。
而根據(jù)2012到2014年的狀況推斷,可以估計(jì):在這萬(wàn)億推文中有35%是轉(zhuǎn)推。
那么,有價(jià)值的數(shù)據(jù)可能要縮減到48TB。此外,這些文本中還包含著超鏈接、提到其他用戶(hù)(@XXX)等內(nèi)容,這些文字是也缺乏分析價(jià)值的。
1TB約等于15個(gè)64GB的手機(jī)存儲(chǔ)數(shù)據(jù)量。
社交媒體VS傳統(tǒng)媒體,誰(shuí)掌握著大數(shù)據(jù)?
Twitter VS數(shù)字化書(shū)籍:十三年的文本超越兩個(gè)世紀(jì)的書(shū)籍?
2010年的Google Books NGrams中囊括了所有已出版書(shū)籍的4%,總計(jì)5000億字,估計(jì)大小約為3TB,比Twitter的數(shù)據(jù)量小24倍。Internet Archive(互聯(lián)網(wǎng)檔案館)的英語(yǔ)公共領(lǐng)域書(shū)籍文本總計(jì)約450GB,比Twitter小約85倍。
Google Books Ngrams Viewer:開(kāi)放數(shù)據(jù)庫(kù),可以查詢(xún)?nèi)魏我粋€(gè)或幾個(gè)詞在過(guò)去500年內(nèi)在書(shū)籍中的出現(xiàn)頻率變化趨勢(shì)。
圖中為“l(fā)ife,liberty,happiness”三詞的結(jié)果。
Internet Archive是一個(gè)非營(yíng)利性的數(shù)字圖書(shū)館組織,提供數(shù)字?jǐn)?shù)據(jù),如:網(wǎng)站、音樂(lè)、動(dòng)態(tài)圖像、和數(shù)百萬(wàn)書(shū)籍的永久性免費(fèi)存儲(chǔ)及獲取。
但是,Google和InternetArchive的數(shù)字化圖書(shū)館藏書(shū)只包含每本書(shū)的一個(gè)副本。因此,將它們與轉(zhuǎn)推無(wú)數(shù)的Twitter相比是不公平的。
通過(guò)過(guò)濾轉(zhuǎn)發(fā)可以發(fā)現(xiàn):Twitter的數(shù)據(jù)量只是Google Books NGrams的16倍,是Internet Archive的公共領(lǐng)域書(shū)籍的54倍。
按照數(shù)據(jù)量來(lái)看:僅僅發(fā)展了13年的Twitter的數(shù)據(jù)量,已經(jīng)比今天研究人員可用的兩個(gè)世紀(jì)的數(shù)字化書(shū)籍更大。
但不可忽視的兩個(gè)因素是:首先,數(shù)字化時(shí)代改變了出版的邏輯,以前出版一本書(shū)的成本太高;而在Twitter時(shí)代,個(gè)人“出版”的數(shù)量?jī)H受限于敲鍵盤(pán)的速度。其次,數(shù)字化的書(shū)籍只是人類(lèi)歷史上極小的一部分,從本質(zhì)上講,這是將Twitter在13年內(nèi)的文本總數(shù)與兩個(gè)世紀(jì)的書(shū)籍的4%進(jìn)行比較。
Twitter VS在線(xiàn)新聞:差距只有8倍
考慮到社交媒體與傳統(tǒng)出版業(yè)的較大差別,更有代表性的比較需要找到具有類(lèi)似特性的媒體。
上文中提到:GDELT的新聞數(shù)據(jù)集在一半的時(shí)間內(nèi),成為Facebook數(shù)據(jù)集的三倍。
那么,Twitter與新聞間的數(shù)據(jù)差異又是怎樣?
從2014年11月至今,GDELT項(xiàng)目監(jiān)控了大約3TB的新聞文章文本,該數(shù)據(jù)僅計(jì)算文章文本本身。
在同一時(shí)期,可以根據(jù)Twitter的先前趨勢(shì)估算:其推文總量應(yīng)該在6000億左右。
假設(shè)轉(zhuǎn)發(fā)量隨時(shí)間逐漸增加,那么,估計(jì)其中3300億條不是轉(zhuǎn)推。
如果按照每條140個(gè)字符計(jì)算,那么將達(dá)到大約84TB;按照平均每條74個(gè)字符計(jì)算,就是44TB,但如果不包括轉(zhuǎn)推,這將降至僅24TB。
由GDELT檢測(cè)發(fā)現(xiàn):假設(shè)2006年至今發(fā)送的數(shù)萬(wàn)億條推文都是140個(gè)字符,Twitter的數(shù)據(jù)量也僅是2014年至今全球在線(xiàn)新聞量的47倍。使用更為現(xiàn)實(shí)的平均推文長(zhǎng)度來(lái)計(jì)算,Twitter的數(shù)據(jù)量是新聞的25倍,移除轉(zhuǎn)發(fā)后則只是16倍。
值得注意的是:這是跨度13年和4年的比較。
如果將兩者都放在4年的時(shí)間內(nèi)比較,那么Twitter的數(shù)據(jù)量只是新聞的15倍,移除轉(zhuǎn)發(fā)后就只有8倍了。
因此,如果有人可以訪(fǎng)問(wèn)2014年至今完整的Twitter消息,那么在同一時(shí)間段內(nèi),其文本總量可能只是在線(xiàn)新聞內(nèi)容總量的8倍左右。
從這個(gè)角度來(lái)看,Twitter是一個(gè)很大的平臺(tái),但它和全球新聞相比也不是天差地別。這也提醒了人們,每天在世界各地發(fā)布了多少新聞。
對(duì)學(xué)術(shù)研究而言,新聞比社交媒體更有價(jià)值
在現(xiàn)實(shí)中,只有極少數(shù)研究人員可以獲得Twitter上所有的推文,最大的學(xué)術(shù)研究通常是使用Twitter Decahose進(jìn)行的,其中僅包含每日推文的大約10%。
2014年至今,Decahose上的數(shù)據(jù)僅為新聞的1.5倍。如果排除轉(zhuǎn)發(fā),新聞則會(huì)反超成為Decahose的1.2倍。
很少有大學(xué)有足夠的財(cái)力支持去訂閱Twitter Decahose,因此,絕大多數(shù)基于Twitter的學(xué)術(shù)研究都是通過(guò)Twitter的搜索API(應(yīng)用程式界面)進(jìn)行的,該API僅提供每日推文的大約1%。在此情況下,新聞實(shí)際上是其數(shù)據(jù)量的6.7倍。如果排除轉(zhuǎn)發(fā),新聞將成為其的12.2倍。
Twitter Developer為學(xué)者研究提供開(kāi)放數(shù)據(jù)
因此,就大多數(shù)學(xué)者所使用的這1%數(shù)據(jù)而言,Twitter在過(guò)去四年中實(shí)際上比同一時(shí)期的全球在線(xiàn)新聞?shì)敵龅臄?shù)據(jù)小幾倍。而那些有幸與Decahose合作的學(xué)者,獲取的數(shù)據(jù)實(shí)際上也少于他們能從新聞中得到的內(nèi)容。
更極端地假設(shè):一個(gè)人可以獲取Twitter上所有的信息,數(shù)據(jù)量也只是新聞的8倍。過(guò)濾掉所有超鏈接和提到別的用戶(hù)(@XXX)的內(nèi)容,該數(shù)字將進(jìn)一步縮小。
簡(jiǎn)而言之,Twitter是一個(gè)龐大的數(shù)據(jù)集,這一點(diǎn)毋庸置疑。但就大多數(shù)分析所關(guān)注的實(shí)際文本內(nèi)容而言,由于單條推文的字符有限,一萬(wàn)億條推文實(shí)際上并沒(méi)沒(méi)有人們想象的那樣有價(jià)值。
在許多方面,與傳統(tǒng)的內(nèi)容平臺(tái)相比,Twitter更偏向于行為數(shù)據(jù)。
最重要的是:即使在平臺(tái)信息完全可接觸的前提下,Twitter實(shí)際上也并不比新聞媒體這樣的傳統(tǒng)數(shù)據(jù)集大得多。
就大多數(shù)研究人員使用的Decahose和API而言,新聞媒體實(shí)際上提供了更大量的可分析內(nèi)容,并且信息出處更明確,穩(wěn)定性更高,歷史背景更清晰。
大數(shù)據(jù)時(shí)代,社交媒體巨頭在數(shù)據(jù)領(lǐng)域占優(yōu)勢(shì)已經(jīng)成為共識(shí),甚至塑造了對(duì)大數(shù)據(jù)工作的定義。然而,一萬(wàn)億條推文可以迅速轉(zhuǎn)化成幾十TB的數(shù)據(jù),這樣快速而巨大的信息流通量中,有研究?jī)r(jià)值的部分其實(shí)很少。
而相比社交媒體,傳統(tǒng)媒體卻是巨大的未開(kāi)發(fā)數(shù)據(jù)源。Twitter肯定符合大數(shù)據(jù)的所有定義,但通過(guò)仔細(xì)觀察,結(jié)論是傳統(tǒng)新聞業(yè)并不落后。唯一的不同只是:社交媒體積極突顯自己與大數(shù)據(jù)的關(guān)系,而新聞業(yè)卻未能在數(shù)字時(shí)代重塑自己。
通過(guò)社交媒體與書(shū)籍、新聞的對(duì)比,最重要的啟示是:當(dāng)我們不遺余力地,將社交媒體神話(huà)化為大數(shù)據(jù)的集大成者時(shí),實(shí)際上更重要的是:創(chuàng)造性思考如何利用圍繞著我們的未開(kāi)發(fā)數(shù)據(jù),并將其帶入大數(shù)據(jù)時(shí)代?
作者:全媒派,微信公眾號(hào):全媒派(ID:quanmeipai)
來(lái)源:https://mp.weixin.qq.com/s/ATn5cT456rSb1F7X8bDIjg
本文由 @全媒派 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash ,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!