在線社交網絡核心用戶挖掘與傳播規(guī)模預測

1 評論 5257 瀏覽 13 收藏 42 分鐘

編輯導讀:新浪微博作為一個新型的社交軟件,已經成為了信息傳播的重要載體。它具有傳播迅速、信息量大、覆蓋面廣的特點,但同時對一些不良的社會事件也產生了推波助瀾的作用。本文將從六個方面,對其傳播鏈路展開分析,希望對你有幫助。

摘要:

新浪微博作為21世紀一種新型的社交軟件,已經成為當今中國社會各界信息傳播的重要載體。與傳統(tǒng)社交平臺的傳播方式不同,其信息通過用戶交互行為如發(fā)布、評論、轉發(fā)等形式進行傳播,具有信息量大、覆蓋面廣、傳播迅速且傳播過程具有裂變性等特點,這在一定程度上推動了廣告優(yōu)化、商品營銷等信息產業(yè)的發(fā)展,但同時也對危害事件、謠言等傳播起到推波助瀾的作用,其引發(fā)的問題為互聯(lián)網的安全運行帶來了新的挑戰(zhàn)。

本文通過研究30條熱門微博的完整轉發(fā)鏈路,挖掘信息擴散主要推動者,量化參與者對信息傳播的影響力,剖析微博熱門信息傳播范式,提出一種基于微博關注關系以及傳染病模型的傳播預測模型,同時展望信息強化效應在傳播規(guī)模預測的應用,結合用戶影響力,在線性閾值模型的基礎上著重考慮不同用戶的核心程度,預測單條微博的最終傳播規(guī)模。

關鍵詞:微博;社交網絡;核心傳播者;信息擴散;傳染病模型

一、引言

在單條微博傳播網絡中,信息的擴散主要依賴于用戶間的轉發(fā),大多數(shù)用戶存在于信息傳播樹較底層次范圍內,微博最終擴散規(guī)模通常由極少數(shù)用戶決定,這些用戶往往是官方機構、輿論大V或者事件實際參與者,即為核心傳播者。

核心傳播者的識別,可以協(xié)助人們快速了解信息傳播過程以及整體傳播趨勢,精準定位信息擴散中的“裂變點”,便于提前對網絡輿情傳播進行有效干預,對于熱點發(fā)現(xiàn)、廣告投遞、謠言阻斷、官方辟謠等具有重要意義(1)。

圖1 核心用戶挖掘相關工作

除了核心用戶的識別,傳播規(guī)模也是影響微博最終傳播效果的關鍵要素之一。通過對信息傳播規(guī)模的預測,可以提早發(fā)現(xiàn)信息傳播的最終影響范圍。相關研究集中于信息傳播建模、影響力最大化等方面。其在實際應用中也十分重要,例如企業(yè)推廣新產品期間,據此尋找最優(yōu)營銷策略,實現(xiàn)降低推廣成本的同時提高經濟效益;政府部門則可以用其來衡量謠言等不良信息危害程度,或運用信息在社交網絡里的傳播范式科學有效地發(fā)布信息,引導輿論走向,提供決策支撐等(2)。

圖2 傳播規(guī)模預測相關工作

基于上述分析,本文主要闡述了以下兩方面工作:

第一,本文通過分析微博網絡中完整的轉發(fā)鏈路,定義了核者的識別。

第二,本文通過提取微博網絡中的相關特征,綜合分析對轉發(fā)產生影響的因素,考慮到影響轉發(fā)因素的用戶影響力以及信息強化效應,以線性閾值模型(LT)、傳染病模型(SEIR)為最初藍本,改進閾值表示方法,實現(xiàn)對于單條微博最終傳播規(guī)模的預測。

二、數(shù)據分析

2.1 數(shù)據介紹

本研究使用數(shù)據為30條熱門微博的完整轉發(fā)鏈路,全部傳播數(shù)據及參與傳播的賬號關系(脫敏),包括用戶轉發(fā)時間以及部分轉發(fā)用戶的關注。

2.2 轉發(fā)層級分析

轉發(fā)深度與廣度是信息傳播的重要指標,通過對30條不同類型微博傳播鏈路進行分析,我們有如下發(fā)現(xiàn)(附錄Ⅰ):

  • 不同主體類型微博往往具有不同的轉發(fā)深度。
  • 對同一事件,不同微博文本對于轉發(fā)深度也有不同影響。
  • 轉發(fā)深度與最終規(guī)模有相對較弱的正相關關系。

2.3 關注結構分析

關注關系是其社交網絡結構的重要組成部分,用戶間的關注關系共同構成網絡結構的入度與出度。通過分析88829條用戶關注數(shù)據有如下發(fā)現(xiàn)(附錄Ⅱ(1)):

  • 有8420人次(10%)關注人數(shù)高達993,我們分析提供的數(shù)據爬取時最高爬取量為993。
  • 大量用戶關注數(shù)在100~200檔位,符合一般邏輯,因為大多數(shù)人處理社交事務精力有限。

三、核心用戶挖掘

核心用戶挖掘往往與關鍵節(jié)點發(fā)現(xiàn)以及影響力最大化等研究結合在一起, Richardson和Domingos等人(3)的研究認為影響最大化問題本質上是一個算法問題,問題的關鍵在于精確識別網絡中某些對于信息擴散最具影響力的節(jié)點。

本文核心用戶挖掘的工作主要圍繞一個思想,倆個網絡與四種指標展開??紤]到核心用戶在不同場景下有不同的定義,在信息傳播的情形下,本文使用用戶微博擴散能力、對下級用戶影響程度能力為衡量指標計算核心用戶的核心程度。具體運用PageRank思想,基于微博轉發(fā)關系網絡、用戶關注關系網絡,構建微博轉發(fā)時間性、用戶轉發(fā)影響力,對下級用戶的情緒強弱性影響以及在靜態(tài)網絡中的用戶自身位置信息指標決定用戶核心程度。

圖3?核心用戶挖掘解決流程

3.1?baseline:級聯(lián)率

級聯(lián)率(Cascade?Ratio)刻畫了參與信息傳播的用戶通過該條信息影響其粉絲的程度,用戶u轉發(fā)了某條微博i的級聯(lián)率CR(u,i)可以定義為:

其中S(i)表示該條信息i最終的擴散規(guī)模;N(u,i)表示用戶u引起的轉發(fā)數(shù)量。一般來說,級聯(lián)率計算簡易,適用于大規(guī)模轉發(fā)網絡的核心傳播者發(fā)現(xiàn),局限性在于其對影響力的評估過于簡單,缺乏對轉發(fā)網絡鏈路整體性的思考。

3.2 基于轉發(fā)關系網絡結構:轉發(fā)時間性

微博具有大規(guī)模性、噪聲多樣性、快速傳播演化性等新特征(5),面對海量信息覆蓋,用戶存在“快餐式”的信息消費習慣,致使大多數(shù)微博的存在壽命十分短暫,因此我們定義擴散速率為另一用戶影響力衡量指標。因此我們用指數(shù)衰減函數(shù)模擬用戶轉發(fā)時間對用戶影響力的貢獻,衰減速率參數(shù)設置為11小時。這也符合戈茲等人基于微博分析提出消息影響力衰減服從冪律分布的結論。

其中,ωi,j為用戶i轉發(fā)用戶微博對其影響力的貢獻值,ti為用戶i轉發(fā)用戶j微博的時刻,tj為用戶j發(fā)布或轉發(fā)微博的時間。λ為控制衰減速率的參數(shù),設置λ=11h。衰減速率控制參數(shù)λ確定(λ>0):

PageRank算法的計算公式:每個網頁的 PR 值不僅僅要考慮被鏈接網頁的數(shù)量,還要考慮鏈接到該網頁的網頁質量和重要性的影響。

考慮轉發(fā)時間性指標,轉發(fā)影響力的計算公式:每個用戶的轉發(fā)影響力值不僅僅要考慮其引起轉發(fā)的數(shù)量,還要考慮引起轉發(fā)的用戶的質量和重要性。

其中,influence(j)表示用戶i的轉發(fā)影響力,q為為阻尼系數(shù)(Damping Factor)且0<q<1,R(j)為用戶i引起的轉發(fā)用戶集合,ωi,j為時間性指標,考慮到轉發(fā)關系網絡中用戶參與轉發(fā)微博的父微博用戶唯一,因此式中out(i)為1。

轉發(fā)影響力的計算中本文使用的基于轉發(fā)時間性指標的PageRank算法衡量用戶對于微博轉發(fā)的影響力,具體旨在不僅用節(jié)點出度值計算貢獻度,還考慮基于邊賦值上由轉發(fā)時間性得到的權重。同樣的,考慮到大規(guī)模網絡計算的復雜度指標,本文提出第二種衡量轉發(fā)時間性的指標:

單位時間引起的轉發(fā)量:統(tǒng)計某用ui戶引起轉發(fā)的微博的起始轉發(fā)時間start_time(ui)與終止轉發(fā)時間end_time(ui),及其引起的總轉發(fā)量sum(ui),計算轉發(fā)速度有:

一定規(guī)模轉發(fā)時間:取ui引發(fā)的所有微博轉發(fā)總量的99%分位數(shù)記為threshold(ui),轉發(fā)量在其下的,一定規(guī)模轉發(fā)時間記為0,而微博轉發(fā)量達到所有微博轉發(fā)總量的99%分位數(shù)的微博,則統(tǒng)計微博的起始轉發(fā)時間start_time(ui)與達到threshold(ui)轉發(fā)量的轉發(fā)時間threshold_time(ui)計算其一定規(guī)模轉發(fā)時間為:

指標綜合及規(guī)一化:

3.3 基于關注關系網絡結構:用戶自身質量

用戶自身質量指標與用戶在靜態(tài)網絡(關注關系網絡)中的位置信息以及對下層用戶的情緒影響決定。

參考PageRank算法的思想(4),利用真實轉發(fā)鏈路數(shù)據提出一種新的核心傳播者轉發(fā)影響力評價指標ZX值,該算法基于社交網絡上信息實際轉發(fā)鏈路,能夠相對客觀地反應用戶在單條微博的傳播中對最終規(guī)模的影響力,用戶ZX值定義如下:

其中ZX(ui)為參與轉發(fā)微博的用戶ui的ZX值;F(ui)為轉發(fā)用戶ui微博的用戶集合;O(vj) 為用戶vj的關注用戶數(shù);0<d<1為阻尼系數(shù),其設置影響算法的性能,通常d為0.85??紤]到微博轉發(fā)關系矩陣較為稀疏,故通過迭代后節(jié)點ZX值相對較小,又此處我們定義的ZX值僅代表單條微博所有參與轉發(fā)的用戶對信息擴散的貢獻程度,故我們可以對此值歸一化處理,方便以后的集成計算,有:

觀察用戶核心度值與引起直接轉發(fā)數(shù)的相關性,可以發(fā)現(xiàn)該指標能夠較好的體現(xiàn)其直接引發(fā)的轉發(fā)數(shù)量,也考慮到對后續(xù)轉發(fā)的間接推動(附錄Ⅱ(2))。綜合來看,社交網絡往往普遍存在大規(guī)模性,因此使用復雜度高的算法難以實現(xiàn)對顯示社交網絡的指標計算,結合用戶自身質量指標衡量手段不一,因此也可以考慮相關中心性算法實現(xiàn)用戶自身質量的量化。

3.4 基于關注關系網絡結構:情緒強弱性

考慮到觀念、情緒等也是可以傳播的,故本文旨在量化情緒的強弱對轉發(fā)的促進作用,此處使用《基于情感詞典的情感分析方法》計算用戶情緒強弱性,對于每一個文本都可以得到一個情感分值,以情感分值的正負性表示情感極性,大于0為積極情緒,小于0反之,絕對值越大情緒越強烈。

基于情感詞典的情感分析方法主要思路:

  • 對文本進行分詞,找出文本中的情感詞、否定詞以及程度副詞;
  • 判斷每個情感詞之前是否存在否定詞及程度副詞,將其與情感詞分為文本中的一個組;
  • 如果情感詞前有否定詞則將情感詞的情感權值乘以-1,如果有程度副詞就乘以程度副詞的程度值;
  • 加和所有組的得分,積極情緒得分大于0、消極情緒得分小于0,絕對值越大情緒越強。

圖4?情緒強弱性判定結果

一個轉發(fā)用戶的情緒影響指標由其對下層用戶的情緒強弱性值決定,使用上述算法,以單條微博涉及用戶為范圍計算用戶情緒影響指標,并做歸一化處理。

用戶自身質量指標是位置信息與情緒影響的線性相加,有:

其中,a1、a2分別為用戶自身質量計算中位置信息因素與情緒影響因素所占比重,設為0.8、0.2。

3.5?指標集成

對于高復雜度算法算法:在基于社交網絡的信息傳播過程中:

  • 轉發(fā)影響力:體現(xiàn)被轉發(fā)用戶信息傳播能力在話題內的信息傳播廣度。
  • 用戶自身質量:體現(xiàn)用戶信息傳播能力影響用戶的強度。

因此本文將這兩個度量指標通過線性融合計算用戶在話題內的信息傳播能力大小。

其中,θ1為核心用戶計算中用戶轉發(fā)影響力所占比重,θ2為用戶自身質量所占比重;如設置θ1=θ2=0.5,表示認為用戶轉發(fā)影響力、用戶自身質量對核心用戶挖掘同等重要。該算法以社交網絡理論為基礎,結合 PageRank 算法,既考慮微博信息轉發(fā)網絡特征,充分結合用戶轉發(fā)行為的時間特征,又結合用戶情緒傳遞性考慮微博用戶的質量屬性特征,具體體現(xiàn)于對信息擴散的推動、對下級用戶的影響強度。

整體上看,能夠較好地反映核心用戶的綜合影響力。對于低復雜度算法算法:綜合考慮影響用戶核心程度的各種指標,本文提出一種結合關注關系、轉發(fā)鏈路以及擴散速率的核心用戶挖掘算法,對于不同的微博類型,可針對性對NZX值以及final-rank進行賦權,針對娛樂性新聞WNZX,Wfinal-rank可分別設置為0.8,0.2;針對政治性新聞,由于其穿透性更強,轉發(fā)深度更深,WNZX,Wfinal-rank可分別設置為0.5,0.5。綜上定義核心度計算公式為:

四、傳播規(guī)模預測

在微博網絡中,用戶之間是通過“關注-被關注”聯(lián)系在一起的,每一個用戶都可以關注其他用戶,關系網絡可以看作是一個有向圖。

4.1 結構化與非結構化傳播

經典的傳播理論認為信息的傳播可以分為“大眾傳播”和“人際傳播”。隨著社會網絡分析(SNA)方法不斷地發(fā)展,對于信息傳播規(guī)模的預測出現(xiàn)了過度“結構”化現(xiàn)象(6),即過分強調網絡結構,忽略的信息傳播的宏觀性。個體間的相互作用對最終傳播規(guī)模有著重要影響,夸大其網絡結構的作用,往往有悖實際情況。

微博的出現(xiàn)讓“非結構化傳播”和“結構化傳播”間的界限更加模糊,如微博信息擴散途徑并不完全依賴于關注關系,還包括熱門推薦、熱搜榜單等都有可能是微博轉發(fā)源(附錄Ⅲ(1))。

圖5 結構化、非結構化轉發(fā)示意圖結果

圖6?不同網絡結構化轉發(fā)在對應轉發(fā)深度中比重

4.2 非結構化傳播預測

由上文的分析可知,本次競賽提供的30條熱門微博的轉發(fā)數(shù)據不嚴格或者很少嚴格依據網絡關注關系結構,因此本文提出基于傳染病模型的非結構化的轉發(fā)預測方法,該方法依賴于轉發(fā)規(guī)模隨時間的變化數(shù)據學習參數(shù),圖為30條微博轉發(fā)規(guī)模的變化曲線,時間步長為一個小時。

圖7?30條微博轉發(fā)數(shù)隨時間變化情況

SIRE模型定義:基于研究傳染病傳播的艙室(SIR)模型的基礎上增加非結構化轉發(fā)行為。

  • 當用戶參與單條微博信息的轉發(fā)之后,基本不會再次轉發(fā),成為 “免疫用戶”。
  • 信息傳播不全依賴于網絡關系(關注關系網絡),增加“外來用戶”。
  • 結合微博特性的傳播預測模型:SIRE(Susceptible-Infectious-Recovered-External)模型。

圖8?SIRE模型示意圖

在實際的微博傳播過程中,比如某用戶發(fā)布一條微博,最先被該用戶的粉絲看到,并可能引起轉發(fā)行為。當用戶轉發(fā)過這條微博之后,基本不會再次進行轉發(fā),從而成為這條微博的“免疫用戶”。由于微博內容在網絡中進行傳播,也存在著不是微博用戶的粉絲而進行的轉發(fā)行為,即非結構化轉發(fā)。因此,本文在基于研究sir傳染病傳播模型的基礎上增加非結構化轉發(fā)用戶,即“外來用戶”,提出滿足微博特性的傳播預測模型,定義為SIRE模型。

該模型滿足以下假設:

  1. 假設1:用戶發(fā)布或者轉發(fā)用戶的狀態(tài)為感染用戶,其直接粉絲的狀態(tài)為易感染用戶。
  2. 假設2:微博用戶從易感染用戶成為感染用戶的概率為β。
  3. 假設3:用戶從感染轉態(tài)成為免疫狀態(tài)的概率為α。
  4. 假設4:沒有關注這些感染用戶的狀態(tài)為外來用戶。此類用戶自主閱讀微博并轉發(fā)的概率為γ。

當給定某條微博,t時刻,在SIRE模型中:

  • S(t)表示t時刻易感染用戶的數(shù)量,該部分人群可能會進行轉發(fā);
  • I(t)表示已轉發(fā)改微博的用戶,并且具有傳播力的人群;
  • R(t)表示免疫用戶R的數(shù)量,該類用戶表示t時刻不會再轉發(fā)該微博的用戶人數(shù)。

具體微分方程表達如下:

  • 假設從t時刻起,單位時間內一個感染用戶可能傳播的易感染用戶為S(t),轉發(fā)傳播的概率值為β,因此單位時間內變化的易染人群為β*S(t)*I(t)。(2)t時刻,單位時間內增加的免疫用戶的數(shù)量為aI(t)。
  • t時刻,單位時間內外來用戶轉發(fā)該微博的概率為γ,由外來用戶轉化為感染用戶的數(shù)量為rE(t)。
  • 易感的減少量減去轉化為免疫的用戶加上外來用戶轉發(fā)量為此時的感染數(shù)量。

設置微博發(fā)布時刻為初始狀態(tài)狀態(tài),即t0,此時只有發(fā)布用戶為感染用戶,粉絲為易感染用戶,即t=t0,I(t0)=1,E(t0)=0,S(t0)=N,N為微博發(fā)布者的粉絲數(shù),可通過博文追溯得到。其中,參數(shù)β,α,γ,?,設置β,?為時域衰減,以符合實際傳播情況,其值采用馬爾科夫蒙特卡洛方法求解,確定最優(yōu)值。

圖為#中國女排衛(wèi)冕世界杯冠軍#與# 視覺中國#轉發(fā)預測擬合效果。

圖9?擬合效果

五、結構化預測方法的展望與想法

5.1 轉發(fā)行為影響因素提取

微博信息傳播的主體機制就是轉發(fā)行為,能對微博轉發(fā)產生影響的因素有很多,不同的因素對用戶最終轉發(fā)與否的貢獻值也并不相同,我們提出用戶核心度、信息強化效應為用戶轉發(fā)的影響因素。

5.1.1 用戶影響力

用戶核心度表達了用戶在社交網絡結構中的重要程度,具體體現(xiàn)于一個人的行為引起其他人的行為改變的能力?,F(xiàn)存眾多基于網絡結構的節(jié)點影響力計算方法(7),如K核中心性(K-shell)、介數(shù)中心性(Betweenness)等。Sergey Brin和Lawrence Page(8)提出的經典的網頁排序算法PageRank值,Cataldi等人(9)考慮到微博等社交網絡的連邊關系與網頁中的連接的相似性,將PageRank算法應用于社交網絡中影響力節(jié)點的判斷并可以較好展現(xiàn)網絡中的用戶核心程度,因此本文使用PageRank值作為節(jié)點影響力評價指標(附錄Ⅲ(2))。

5.1.2 信息強化效應

在社交網絡中,因為用戶間存在趨同性,某些行為也具有類似信息的傳播效果,例如同齡人的飲食行為(10),微博用戶的轉發(fā)行為等。我們對30條熱門微博8萬多用戶參與的114856次轉發(fā)行為分析時有如下發(fā)現(xiàn)(附錄Ⅲ(3))。

  • 有68340次轉發(fā)(59%),其用戶的關注列表中并沒有參與該條微博轉發(fā)的用戶,可能轉自推薦或者熱搜,這也是微博信息傳播的非結構化體現(xiàn)。
  • 存在23843次轉發(fā),其參與者的關注列表中有一位參與該條信息轉發(fā)的用戶。
  • 有22673次轉發(fā)受到2次及以上激活,社會強化效應不可忽視。

5.2?基于強化效應預測模型

本文提出一種基于微博關注關系、用戶影響力以及信息強化效應的傳播規(guī)模預測模型,該模型在線性閾值模型(LT)(11)的基礎上著重考慮不同用戶影響力。該模型分為兩個部分,啟動部分及后續(xù)傳播部分。啟動部分考慮根微博用戶u對粉絲集合fans(u)的影響力PR(u),用戶v轉發(fā)閾值設置為0到該粉絲所有關注用戶(Fv)PR值之和間的隨機數(shù),即γv∈[0,sum(PR(Fv))],若PR(u)>γv,則用戶v不轉發(fā);若PR(u)≤γv,則用戶v轉發(fā)。后續(xù)傳播部分因為信息的冗余所以存在強化效應,對用戶的總影響力Influce(v)計算如下:

用戶v轉發(fā)閾值設置為0到該粉絲所有關注用戶(Fv)PR值之和間的隨機數(shù),與LR模型不同,當v所關注用戶近90%都轉發(fā)了該微博,則用戶v必參與轉發(fā)。

循環(huán)上述算法二直至不再增加轉發(fā)節(jié)點,可以得到基于關注關系結構的轉發(fā)規(guī)模Net_Scale。結合上文對8萬多用戶的轉發(fā)行為分析,59%的用戶的轉發(fā)不依賴于關注關系,所以有最終傳播規(guī)模:

5.3?基于鏈路預測模型

分析本次比賽提供的數(shù)據之后,本文將微博信息轉發(fā)預測問題轉化為鏈路預測問題。鏈路預測的主要目的是基于推測網絡節(jié)點之間存在鏈路的概率。本文主要研究基于轉發(fā)關系的微博傳播網絡中的鏈路預測問題(附錄Ⅳ(1))。

本文采用轉發(fā)數(shù)據對不同的指標進行對比分析,將數(shù)據及按照0.85:0.15的比例切分訓練集和測試集。分別嘗試Adamic-Adar,Jaccard Coefficient, Preferential Attachment, Node2vec, Variational Graph Auto-Encoders等鏈路預測方法,衡量鏈路預測算法精度的指標主要有AUC和Precision,其中AUC從整體上衡量算法的精確度,Precision只考慮排在前L位的邊是否預測準確。仿真結果發(fā)現(xiàn)Node2vec, Variational Graph Auto-Encoders,?Spectral Clustering 在ROC得分和PR得分上要優(yōu)于Adamic-Adar,Jaccard Coefficient, Preferential Attachment(詳見附錄Ⅳ(2))。

六、結論與展望

本文分析了新浪微博30條熱門信息轉發(fā)鏈路,提出了對于真實傳播網絡的核心傳播者發(fā)現(xiàn)算法,該算法綜合考慮用戶直接帶來的轉發(fā)量,以及對信息后續(xù)傳播的影響,提出用戶核心度,轉發(fā)速率指標,從時間、空間角度量化用戶貢獻值,實現(xiàn)單條微博轉發(fā)中用戶重要程度排名。

本文還深入分析了轉發(fā)鏈路與最終傳播規(guī)模的內在關系,提出了一種基于SIRE的傳播規(guī)模預測模型,此外,想法拓展中提出一種基于影響力的轉發(fā)閾值模型,該模型分為啟動部分和后續(xù)傳播部分,綜合考慮了用戶在網絡結構中的影響力以及社會行為強化效應,通過仿真計算的方法預測傳播規(guī)模,最后嘗試了幾種鏈路預測算法用于信息傳播模型研究。社交網絡上的信息傳播機制相對復雜,其一定的傳播機理附近存在大量的隨機性與不確定性,受限于用戶的興趣愛好、轉發(fā)習慣、甚至情緒的影響。

單從結構上、宏觀上都無法準確描述其具體傳播范式。實現(xiàn)真實準確的轉發(fā)規(guī)模預測,即要考慮結構上的“內部影響”,也要考慮宏觀層面的“外部影響”,以及結合用戶習慣與博文屬性等等因素。只考慮信息傳播鏈路、用戶網絡結構等特征無法實現(xiàn)對于真實熱門信息的全面挖掘。用戶探索是發(fā)現(xiàn)社交信息傳播模式的核心,新浪微博擁有海量用戶,來自社會的各個層面,用節(jié)點代表用戶,用連邊代表關系是理想化的拓撲模型,方便計算卻難以精準進行人群畫像,從而忽略眾多信息。

此外,本文對于信息強化效應的量化還有待提高,可在大規(guī)模社交網絡上使用多種傳播模型做多次信息傳播仿真,這也是下一步的工作。

尋找信息傳播可計算的基因遠遠不是幾萬行數(shù)據、幾千行代碼可以實現(xiàn)的,不確定的時代給計算傳播學更多機遇與挑戰(zhàn),在線社交網絡為信息傳播研究帶來極好的契機,推薦系統(tǒng)與社交關系改變了用戶接受信息的方式,社交媒體與輿論大v創(chuàng)造了用戶的信息環(huán)境,探索社交網絡信息傳播本質對大型社會網絡研究將是巨大的貢獻。

參考文獻:

1. Fan L, Lu Z, Wu W, Thuraisingham B, Ma H, Bi Y, editors. Least Cost Rumor Blocking in Social Networks. international conference on distributed computing systems; 2013.

2. Liu D, Jing Y, Zhao J, Wang W, Song G. A Fast and Efficient Algorithm for Mining Top-k Nodes in Complex Networks. Scientific Reports. 2017;7(1):43330.

3. Richardson M, Domingos P, editors. Mining knowledge-sharing sites for viral marketing. knowledge discovery and data mining; 2002.

4. ?宮秀文,張佩云.基于PageRank的社交網絡影響最大化傳播模型與算法研究[J].計算機科學,2013,40(S1):136-140.

5. ?丁兆云,賈焰,周斌.微博數(shù)據挖掘研究綜述[J].計算機研究與發(fā)展,2014,51(04):691-706.

6. ?許小可.社交網絡上的計算傳播學[D].北京:高等教育出版社, 2015:2-3.

7. ?任曉龍,呂琳媛.網絡重要節(jié)點排序方法綜述[J].科學通報,2014,59(13):1175-1197.

8.??Page L, Brin S, Motwani R, et al. The PageRank citation ranking: Bring order to the Web.

Stanford University Technical Report SIDL-WP-1999-0120, 1999.

9.??Cataldi M, Caro L D, Schifanella C. Emerging topic detection on Twitter based on

temporal and social terms evaluation[C]. In MDMKDD’10, 2010: 4-13.

10. 許小可.社交網絡上的計算傳播學[D].北京:高等教育出版社, 2015:164-199.

11.? Granovetter M. Threshold Models of Collective Behavior. American Journal of Sociology. 1978;83(6):1420-43

附錄Ⅰ

注:圖示為30條微博轉發(fā)趨勢情況,橫、縱坐標分別為轉發(fā)深度、參與轉發(fā)的用戶總數(shù)。

我們發(fā)現(xiàn)公共關注事件,例如“龐氏青年水氫車”,“女排奪冠”等話題,其往往能引起群體的憤怒或喜悅,信息穿透性更強,擴散范圍更廣泛,平均轉發(fā)深度高達20;興趣導向事件,例如“AI換臉”,“姐姐來了”,“易烊千璽”等文娛微博,符合部分用戶的興趣,轉發(fā)深度較低,擴散范圍較為集中,轉發(fā)深度均值為5~6左右。針對同一事件的不同文本描述,例如“德云社弟子眾籌百萬”事件,存在不同的擴散深度與傳播規(guī)模,其受限于博文新穎性、發(fā)布用戶關鍵性,其中博文能直接引起“大眾情緒”的轉發(fā)深度高達24。

注:通過對30條各類型微博的轉發(fā)深度分析得知,微博的最終傳播規(guī)模與轉發(fā)深度存在正相關性,相關系數(shù)為0.339518;去除轉發(fā)深度24,規(guī)模2729與轉發(fā)深度5,規(guī)模8356的離群點后相關系數(shù)高達0.66。附錄Ⅱ(1)

注:圖示為剔除關注數(shù)量高于993的用戶后剩余用戶關注數(shù)分布,大部分用戶關注數(shù)100~200檔.(2)

注:圖示為NZX值與節(jié)點引發(fā)轉發(fā)數(shù)之間的關系,橫、縱坐標分別為節(jié)點直接引發(fā)的轉發(fā)數(shù)、原始NZX值整數(shù)擴樣。(3)

注:刪除根微博用戶,觀察剩余用戶NZX值與引起的轉發(fā)量之間的關系,其整體上體現(xiàn)線性關系。圖示的離群點用戶,其引起的直接轉發(fā)數(shù)不多但其中存在“裂變點”,故NZX值較大。附錄Ⅲ(1)

注:推薦系統(tǒng)的發(fā)展使信息推薦更加符合用戶的興趣,精準投遞用戶感興趣的內容,極大促成了用戶面向非關注結構的轉發(fā)行為;快節(jié)奏的生活壓縮人們在社交網絡上消耗的時間,部分用戶為了信息獲取的高效性、及時性、全面性往往格外關注熱搜榜單,加之熱搜的形成源自用戶的普遍關注,也促成了用戶面向非關注結構的轉發(fā)行為。(2)

注:其中PR(ui)為用戶ui的PageRank值;F(ui)為用戶ui的粉絲集合;?O(vj)為用戶?vj關注的用戶數(shù);?d為阻尼系數(shù)(Damping Factor),0<d<1。(3)

注:圖為參與轉發(fā)的用戶的關注列表中,同時參與該微博轉發(fā)的用戶數(shù)(被激活的次數(shù)),社會行為強化效應的存在已被證實且強化效果并不呈線性增加,如存在一位與用戶直接相連的肥胖好友(一度好友),用戶的肥胖風險將增加45%,對于二度好友增加20%,三度好友增加10%;對于轉發(fā)行為的強化效應定量化表示仍是下一步的工作。附錄Ⅳ(1)

注:左圖所示,用戶B轉發(fā)了A的微博,即形成一條有向連邊。用Gmsg=(Vmsg′Emsg)表示,其中Vmsg′={v1,v2,…vn}?Vuser是微博信息msg在Gmsg上傳播過程所覆蓋的用戶集合,Emsg={eij|1≤i≤m,1≤j≤m}?Euser,eij=1表示信息msg從用戶vi傳播到了用戶vj,否則eij=0。

右圖描述信息msg在傳播網絡中的鏈路預測問題,微博傳播網絡中的鏈路預測是預測用戶采取轉發(fā)行為的概率,當預測的轉發(fā)概率大于設定的閾值時,會認為用戶轉發(fā)微博內容。(2)表1?鏈路預測方法比較

注:可以看出Node2vec, Variational Graph Auto-Encoders,?Spectral Clustering 在ROC得分和PR得分上要優(yōu)于Adamic-Adar,Jaccard Coefficient, Preferential Attachment。附錄Ⅴ

注:出道即巔峰型擴散網絡,此類微博壽命較短,用戶受興趣導向轉發(fā),影響力相對較小。

注:二次再爆發(fā)型擴散網絡,此類博文通過知名博主轉發(fā)后會再次引發(fā)擴散“裂變”。

注:熱度漸衰減型網絡,此類微博受眾用戶廣泛,信息滲透力強,往往能激發(fā)用戶較為強烈的情緒或共鳴,壽命較長。

 

本文由 @數(shù)據鍋 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 不明覺厲,只怪自己當年,數(shù)學是體育老師教的,先收藏為敬。

    來自北京 回復