輿情熱詞分析的四點(diǎn)思路

0 評(píng)論 22215 瀏覽 72 收藏 7 分鐘

近段時(shí)間,騰訊和阿里在技術(shù)公開(kāi)這件事情上隱隱有較勁的趨勢(shì),這邊公開(kāi)一個(gè)Tinker熱補(bǔ)丁技術(shù),那邊就公開(kāi)一個(gè)雙11背后的技術(shù),似乎都在通過(guò)秀技術(shù)來(lái)爭(zhēng)奪開(kāi)發(fā)者的眼球,當(dāng)然,這也是廣大開(kāi)發(fā)者非常樂(lè)意看到的。下面這篇關(guān)于阿里輿情熱詞分析的文章,稍作刪減,難度很合適,值得一讀。

背景

阿里云公眾趨勢(shì)分析產(chǎn)品通過(guò)云服務(wù)的方式,將阿里巴巴成熟的輿情分析技術(shù)共享給廣大開(kāi)發(fā)者。熱詞分析是公眾趨勢(shì)分析最近剛剛上線的功能,這個(gè)功能聽(tīng)起來(lái)很簡(jiǎn)單,不就是對(duì)數(shù)據(jù)源進(jìn)行分詞,然后再統(tǒng)計(jì)一下熱度么?No!它可沒(méi)那么簡(jiǎn)單。

分詞和實(shí)體識(shí)別

良好的分詞是熱詞分析的基礎(chǔ)。對(duì)于絕大部分分詞工具來(lái)說(shuō),最大的挑戰(zhàn)在于識(shí)別從未見(jiàn)過(guò)的網(wǎng)絡(luò)熱門(mén)詞、各種奇葩的品牌、產(chǎn)品詞等。舉個(gè)例子,“安利的空氣凈化器跟霍尼韋爾還有米家比怎么樣”這個(gè)句子,我們隨意在網(wǎng)上找到了某款開(kāi)源的分詞工具,分詞的結(jié)果如下:

安利/的/空氣/凈化器/跟/霍尼/韋爾/還有/米/家/比/怎么樣

分詞工具能識(shí)別一般的詞語(yǔ),但是對(duì)于品牌詞、產(chǎn)品詞等專有的實(shí)體詞,在沒(méi)有知識(shí)庫(kù)的輔助下很難識(shí)別。而阿里在互聯(lián)網(wǎng)尤其是電商領(lǐng)域耕耘多年,積累了豐富的詞庫(kù),并始終在不斷更新,譬如上述句子,我們可以將其斷成如下形式:

安利:brd/的/空氣凈化器:prd/跟/霍尼韋爾:brd/還有/米家:brd/比/怎么樣

不僅能正確地分詞,而且還能識(shí)別出其中的實(shí)體,如霍尼韋爾和米家是品牌詞(brd),空氣凈化器是產(chǎn)品詞(prd)。目前,公眾趨勢(shì)分析背后有百萬(wàn)級(jí)的人名、品牌、地址、組織機(jī)構(gòu)名、商品、品牌詞庫(kù)等做支撐。

關(guān)鍵詞提取

海量的文章帶來(lái)了巨大數(shù)量的詞,對(duì)于每篇文章,真正需要被關(guān)注的只是少數(shù)關(guān)鍵詞,那么如何在一篇長(zhǎng)文本中挑出關(guān)鍵詞呢?熱詞分析使用TextRank算法為文本生成關(guān)鍵詞。

TextRank的算法思想來(lái)源于PageRank,旨在通過(guò)文本中句子、詞之間的相互投票,為句子、詞進(jìn)行權(quán)重的排序。PageRank假設(shè)一個(gè)網(wǎng)頁(yè)的入鏈越多,則其權(quán)重越高。隨機(jī)地為每個(gè)網(wǎng)頁(yè)分配一個(gè)初始權(quán)重,在每一輪投票中,每個(gè)網(wǎng)頁(yè)將其權(quán)重均勻地分配給其出鏈,收斂后(平穩(wěn)馬爾科夫過(guò)程)每個(gè)網(wǎng)頁(yè)得到的權(quán)重值反映了其重要性。

PageRank通過(guò)頁(yè)面之間的鏈接關(guān)系建立投票機(jī)制,TextRank以此為啟發(fā),通過(guò)詞之間的鄰近關(guān)系建立詞權(quán)重投票機(jī)制,即假如兩個(gè)詞出現(xiàn)在同一個(gè)窗口中,則它們之間產(chǎn)生一次權(quán)重投票,這樣可以通過(guò)PageRank的求解方法,計(jì)算每個(gè)詞在文本中的權(quán)重。得到權(quán)重的排序之后,就可以挑選topN詞作為關(guān)鍵詞了。

詞關(guān)聯(lián)計(jì)算

對(duì)于每個(gè)熱詞,我們提供了與其強(qiáng)關(guān)聯(lián)的詞,那么,這些關(guān)聯(lián)關(guān)系如何計(jì)算呢?

詞關(guān)聯(lián)使用點(diǎn)互信息PMI(pointwise mutual information)來(lái)表示,用信息論的語(yǔ)言來(lái)表述,點(diǎn)互信息衡量的是“給定一個(gè)隨機(jī)變量后,另一個(gè)隨機(jī)變量不確定性的減少程度”。假設(shè)有兩個(gè)詞x和y,則x和y之間的點(diǎn)互信息由下述公式表示:

其中p(x,y)表示x和y同時(shí)出現(xiàn)的概率,p(x)和p(y)分別表示x和y單獨(dú)出現(xiàn)的概率。簡(jiǎn)單粗暴地理解,就是說(shuō)相對(duì)于單獨(dú)出現(xiàn),某兩個(gè)詞更喜歡一起出現(xiàn),則它們之間的關(guān)聯(lián)程度越高。

熱度計(jì)算

好了,現(xiàn)在我們已經(jīng)能得到每篇文章的關(guān)鍵詞,而且也能計(jì)算跟這些關(guān)鍵詞有關(guān)聯(lián)關(guān)系的詞了,那么詞的熱度如何衡量呢?詞的熱度計(jì)算不能僅僅統(tǒng)計(jì)這個(gè)詞在所有文章中的出現(xiàn)次數(shù),因?yàn)槊科恼碌臒衢T(mén)程度不一樣,汪峰上了頭條時(shí)的報(bào)道,對(duì)于熱度的計(jì)算不能跟一般的小道消息同日而語(yǔ)。熱詞分析在計(jì)算熱度時(shí),會(huì)用文章的熱度對(duì)詞進(jìn)行加權(quán),而文章的熱度會(huì)綜合考慮以下因素:

  • 文章的轉(zhuǎn)發(fā)量
  • 瀏覽量
  • 評(píng)論量
  • 文章發(fā)布的時(shí)間,如果發(fā)布時(shí)間越長(zhǎng),則熱度衰減地越高

這里作者只是對(duì)熱詞分析提供了一些分析思路,真正實(shí)踐起來(lái)還是需要算法的支持和反復(fù)調(diào)整各種影響因子。

最后,感謝原作者。

#專欄作家#

給產(chǎn)品經(jīng)理講技術(shù),微信公眾號(hào)(pm_teacher),人人都是產(chǎn)品經(jīng)理專欄作家。資深程序猿,專注客戶端開(kāi)發(fā)若干年,對(duì)前端、后臺(tái)技術(shù)略懂,熱衷于對(duì)新的科技領(lǐng)域的探索。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!