國外幕后人員分析新浪微博的刪帖機(jī)制

0 評論 6486 瀏覽 1 收藏 3 分鐘

鑒于微博API的限制,研究人員主要跟蹤了最可能會發(fā)敏感帖子的敏感用戶組。從2012年7月20日到9月8日,研究人員利用API以每分鐘一次的頻率搜索3500位用戶的時(shí)間線,以每四秒一次的頻率搜索公共時(shí)間線。由于新浪微博不支持匿名查詢,所以他們利用Tor隱藏IP后創(chuàng)建虛假用戶帳號。他們共收集了238萬用戶時(shí)間線帖子,刪貼率是12.75%。考慮到新浪需要處理的大數(shù)據(jù)集規(guī)模,發(fā)帖后5到10分鐘的刪貼峰值,尤其是考慮到刪貼無法完全用自動方式處理,新浪是如何做到迅速發(fā)現(xiàn)和刪除敏感帖子?研究人員提出了六個(gè)假說:

1.新浪微博有一個(gè)監(jiān)視關(guān)鍵詞列表,審查員將會瀏覽包含這些關(guān)鍵詞的帖子決定是否刪除。

2.微博有針對性的監(jiān)視頻繁發(fā)敏感帖子的用戶。

3.在發(fā)現(xiàn)一個(gè)敏感帖子之后,審查員可以追溯所有相關(guān)的轉(zhuǎn)貼,可以一次性的全部刪除。

4.通過關(guān)鍵詞搜索,微博刪除了追溯的帖子導(dǎo)致了特定關(guān)鍵詞在短時(shí)間內(nèi)出現(xiàn)刪除峰值。

5.審查員工作是分布式的,相對獨(dú)立,其中部分人可能是兼職。

6.刪貼速度與主題有關(guān),根據(jù)主題的敏感度刪除速度存在差異。研究人員利用自然語言處理技術(shù)進(jìn)行刪貼主題分析,發(fā)現(xiàn)某些熱門主題帖子比另外一些主題更快被刪除(如圖所示),如群交、北京暴雨死亡人數(shù)和司法獨(dú)立等都在極端時(shí)間內(nèi)刪除了。

研究人員總結(jié)了微博的過濾機(jī)制,其中主動過濾機(jī)制包括:顯式過濾,微博通知發(fā)貼人他們的帖子內(nèi)容違反了內(nèi)容政策(但有些時(shí)候用戶并不清楚到底是因?yàn)槭裁疵舾性~受阻);隱式過濾,微博需要在手動審查帖子后才會允許帖子上線;偽裝發(fā)帖成功,其他用戶看不到這位用戶的帖子。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!