萬(wàn)字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”

39 評(píng)論 139058 瀏覽 640 收藏 72 分鐘

不必羨慕什么“技術(shù)流”,即使是不懂技術(shù)和復(fù)雜數(shù)學(xué)知識(shí)的你,照樣能成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”!因?yàn)閯?chuàng)造性思維和強(qiáng)烈的好奇心會(huì)給你帶來(lái)好運(yùn)的,等到工具、技能和思維三者融會(huì)貫通的時(shí)候,就會(huì)像獨(dú)孤求敗那樣——“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!

1?成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”

1.1 一般意義上的“增長(zhǎng)黑客”

“增長(zhǎng)黑客(Growth Hacker)”,這個(gè)近幾年來(lái)風(fēng)靡中國(guó)互聯(lián)網(wǎng)界的新興概念,濫觴于美國(guó)硅谷互聯(lián)網(wǎng)創(chuàng)業(yè)圈,國(guó)內(nèi)則是由范冰首先引進(jìn),他的著作《增長(zhǎng)黑客:創(chuàng)業(yè)公司的用戶與收入增長(zhǎng)秘籍》使這個(gè)概念深入人心。

結(jié)合國(guó)內(nèi)外關(guān)于“增長(zhǎng)黑客”的表述:“增長(zhǎng)黑客”是以數(shù)據(jù)驅(qū)動(dòng)營(yíng)銷、以市場(chǎng)指導(dǎo)產(chǎn)品,通過(guò)技術(shù)手段貫徹增長(zhǎng)目標(biāo)的一群人。這就需要他們既了解技術(shù),寫(xiě)得了代碼;又能了解人性,能捕捉用戶的心理感受和真實(shí)需求;最重要的是,他們經(jīng)常能突發(fā)奇想,發(fā)揮創(chuàng)意,大開(kāi)腦洞,以小的投入獲取較多的用戶和收入。

一言以蔽之,“增長(zhǎng)黑客”就是具備各種跨界技能,可以利用各種巧妙的手段以極小的成本獲取大量用戶,實(shí)現(xiàn)最終的收入增加。

“增長(zhǎng)黑客”讓那些資金不夠充裕、前期資源緊缺和初始用戶匱乏的初創(chuàng)型互聯(lián)網(wǎng)初創(chuàng)團(tuán)隊(duì)看到了“四兩撥千斤”的希望,小投入也能辦大事。

“增長(zhǎng)黑客”的一個(gè)很好的理念,但它在不同的互聯(lián)網(wǎng)領(lǐng)域有著不同的形態(tài),具體的實(shí)現(xiàn)手法也不盡相同,比如在新媒體運(yùn)營(yíng)領(lǐng)域。

1.2 新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”

新媒體是跟隨互聯(lián)網(wǎng)興起的一個(gè)新興媒體形態(tài),它已經(jīng)在很大程度上顛覆了以往的紙質(zhì)刊物、廣播及電視等傳統(tǒng)媒體,重要性不言而喻。關(guān)于它的概念和內(nèi)涵,筆者不想多說(shuō),網(wǎng)上有很多的詳細(xì)介紹。在這里,筆者認(rèn)為新媒體最為重要的一個(gè)特征是:

人人都可以是信息的生產(chǎn)者,人人也都是信息的傳播者。

這意味著無(wú)論是誰(shuí),包含企業(yè)、機(jī)構(gòu)還有個(gè)人,都有機(jī)會(huì)成為這個(gè)新媒體時(shí)代的成功者。咪蒙、一條、十點(diǎn)讀書(shū)即是例證。

然而,隨著中國(guó)的互聯(lián)網(wǎng)時(shí)代進(jìn)入下半場(chǎng),新媒體行業(yè)也從野蠻生長(zhǎng)的時(shí)代進(jìn)入“弱肉強(qiáng)食”的“叢林時(shí)代”,常規(guī)的新媒體運(yùn)營(yíng)手段(包括內(nèi)容、展現(xiàn)形式及推廣方法等)已經(jīng)很難從用戶增長(zhǎng)緩慢和收入增長(zhǎng)停滯的困境中突圍出來(lái)。

寫(xiě)到這里,筆者不由得想到兒時(shí)看過(guò)的動(dòng)漫——《數(shù)碼寶貝》中的主人公身邊各類可愛(ài)的小精靈,在遇到危急情況時(shí)會(huì)進(jìn)化,由“成長(zhǎng)期”進(jìn)化到“成熟期”、“完全體”,甚至是“究極體?”,適應(yīng)性和攻擊力呈現(xiàn)指數(shù)級(jí)的提升,足以在危如累卵的逆境中打敗強(qiáng)大的敵人,反敗為勝。

與此類似,廣大新媒體從業(yè)者們?cè)谶@個(gè)時(shí)候,也需要“進(jìn)化”,完成華麗的轉(zhuǎn)身—采用精細(xì)運(yùn)作、量化分析的科學(xué)手段去進(jìn)行新媒體運(yùn)營(yíng),以適應(yīng)這個(gè)足以革新我們思維觀念的“大數(shù)據(jù)時(shí)代”,而“增長(zhǎng)黑客”正是一劑良方。

從前面對(duì)“增長(zhǎng)黑客”的介紹中,我們可以發(fā)現(xiàn):

“增長(zhǎng)黑客”是一個(gè)多面手的角色,需要掌握跨領(lǐng)域的知識(shí),其中最為核心的技能即是懂技術(shù)、精通數(shù)據(jù)分析。

然而,技術(shù)(碼代碼、編寫(xiě)程序等)和數(shù)據(jù)分析(數(shù)學(xué)知識(shí)和BI軟件操作等)對(duì)于很多做新媒體運(yùn)營(yíng)的小伙伴來(lái)說(shuō),是十分棘手的兩樣事物:很多從事新媒體運(yùn)營(yíng)的小伙伴是正兒八經(jīng)的文科生畢業(yè),文案和排版方面,他們可以說(shuō)是“長(zhǎng)袖善舞”,但技術(shù)和數(shù)據(jù)分析卻可能是他們的“夢(mèng)魘”。

鑒于這種情形,筆者提倡“人+數(shù)據(jù)驅(qū)動(dòng)思維+工具”理念—以人為本,從運(yùn)營(yíng)者自身的知識(shí)結(jié)構(gòu)出發(fā),以數(shù)據(jù)/量化思維作為方法論,用工具輔助運(yùn)營(yíng),從而做到揚(yáng)長(zhǎng)避短,把自己的精力集中在重要的事情上。

筆者在這里特意收羅了10幾款跟數(shù)據(jù)分析有關(guān)的工具,以彌補(bǔ)技術(shù)小白和數(shù)據(jù)分析小白技能上的匱乏,而且掌握它們不需要很懂技術(shù),連數(shù)據(jù)分析這項(xiàng)技能也能借助它們輕松get。

值得注意的是,本文所要介紹的工具,并不是狹義上的“工具”,如可視化工具、文本分析工具和事件熱度趨勢(shì)/預(yù)測(cè)分析操作類工具,還包括數(shù)據(jù)新聞這種廣義上的新型信息載體;更為重要的是,他們分別代表著四種思維/觀念—重視非結(jié)構(gòu)性數(shù)據(jù)、科學(xué)化預(yù)測(cè)、信息的具象化呈現(xiàn)以及用數(shù)據(jù)講故事,這些“工具”都是為達(dá)到、完成或促進(jìn)新媒體運(yùn)營(yíng)效果的有利武器。

如下圖所示,以下是本文的行文結(jié)構(gòu):

新媒體運(yùn)營(yíng)的“增長(zhǎng)黑客”數(shù)據(jù)分析工具箱

2?文本分析工具

文本分析的重要性筆者已經(jīng)在之前的兩篇文章中有過(guò)論述,詳見(jiàn)《數(shù)據(jù)運(yùn)營(yíng)|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>》《在運(yùn)營(yíng)中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個(gè)實(shí)際案例,五點(diǎn)分析(下)》,故本文不做贅述,直奔工具應(yīng)用的主題。

2.1 NLPIR在線系統(tǒng)

NLPIR,即“自然語(yǔ)言處理與信息檢索共享平臺(tái)”的英文縮寫(xiě), 打開(kāi)該網(wǎng)址,即可進(jìn)入主界面—“語(yǔ)義分析系統(tǒng)”,顧名思義,它是一個(gè)在線的中文語(yǔ)義分析工具,因?yàn)榉巧虡I(yè)化,它對(duì)處理文本的篇幅大小也有限制,只能處理3000字,可以給熱衷于文本分析的小伙伴過(guò)過(guò)癮,但要想用于商業(yè)目的,那只能呵呵了。

NLPIR在線系統(tǒng)的首頁(yè)

上圖中間部分的11個(gè)圓圈即是該系統(tǒng)的所有功能,但其中有幾個(gè)只是掛出來(lái),目前還未實(shí)現(xiàn),結(jié)合新媒體運(yùn)營(yíng)工作中的實(shí)際需求,筆者只介紹其中幾個(gè)比較有實(shí)用價(jià)值的功能模塊。

以下以《<你的名字。>破5.5億元日媒:和中國(guó)聯(lián)手有錢賺》這則新聞作為測(cè)試文本,筆者來(lái)給大家介紹下這個(gè)系統(tǒng)中的實(shí)體抽取、詞頻統(tǒng)計(jì)、文本分類、情感分析和關(guān)鍵詞提取這5個(gè)比較有實(shí)用價(jià)值、且準(zhǔn)確度較高的功能模塊。

2.1.1?實(shí)體抽取

NLPIR中的“實(shí)體抽取”功能模塊可以智能識(shí)別出測(cè)試文本中出現(xiàn)的人名、地名、機(jī)構(gòu)名、媒體、作者及文章的主題關(guān)鍵詞,這是對(duì)語(yǔ)言規(guī)律的深入理解和科學(xué)預(yù)測(cè),它提煉出的詞語(yǔ)不需要在詞典庫(kù)中事先存在。

實(shí)體抽取的圖表效果支持力導(dǎo)向圖和弦圖這兩種形式,如下圖所示:

測(cè)試文本“實(shí)體抽取”的2種呈現(xiàn)形式

上圖中,從“文本”這個(gè)一級(jí)類目中,分別分出了“關(guān)鍵詞”、“地名”、“時(shí)間”這3個(gè)二級(jí)類目,由此能大致判斷出測(cè)試文本中包含的事件元素,如主題是關(guān)于電影的,涉及國(guó)家(地區(qū))間的對(duì)比,還有縱向時(shí)間維度的分析,一些關(guān)鍵詞能讓我們把握文章中重要的詞句。

2.1.2?詞頻統(tǒng)計(jì)

在一份給定的文件里,詞頻(term frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)。

在文本分析中,詞頻統(tǒng)計(jì)是較為常規(guī)的、同時(shí)也是最為重要的一個(gè)環(huán)節(jié),它用來(lái)評(píng)估一個(gè)詞對(duì)于一個(gè)文件或者一個(gè)語(yǔ)料庫(kù)中的一個(gè)領(lǐng)域文件集的重要程度。

NLPIR只展示了名詞、動(dòng)詞、形容詞這3種開(kāi)放詞類,這個(gè)3個(gè)此類也是一段文本中最為重要的3個(gè)部分:

  • 名詞介紹文章中的各個(gè)主體,能讓我們知道文本描述的對(duì)象是誰(shuí);
  • 動(dòng)詞表征各個(gè)主體的動(dòng)作和行為,能讓我們知道關(guān)于主體發(fā)生了什么;
  • 而形容詞則能描述主體及動(dòng)作/行為的特征,能讓我們知道主體及其行為/動(dòng)作的性質(zhì)、狀態(tài)、特征或?qū)傩浴?/li>

NLPIR的詞頻統(tǒng)計(jì)只展示了上述詞類的Top 10結(jié)果,以折線圖和條形圖的形式進(jìn)行展現(xiàn)??戳讼旅娴脑~頻分類展示,聯(lián)想文章標(biāo)題,我們很自然地了解到《你的名字?!愤@部電影在市場(chǎng)上獲得了不錯(cuò)的業(yè)績(jī),引發(fā)中日媒體的廣泛報(bào)道和關(guān)注……

測(cè)試文本的詞頻統(tǒng)計(jì)呈現(xiàn)

2.1.3?文本分類

NLPIR“文本分類”部分目前所展示的類別只是新聞的政治、經(jīng)濟(jì)、軍事、交通等,分類有待擴(kuò)展和細(xì)化。

NLPIR深度文本分類,可以用于新聞分類、簡(jiǎn)歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。此外,它還可以實(shí)現(xiàn)文本過(guò)濾,能夠從大量文本中快速識(shí)別和過(guò)濾出符合特殊要求的信息,可應(yīng)用于品牌報(bào)道監(jiān)測(cè)、垃圾信息屏蔽、敏感信息審查等領(lǐng)域。

然而,從測(cè)試的效果來(lái)看,這個(gè)功能模塊的分析效果還不甚準(zhǔn)確,它沒(méi)有“娛樂(lè)”這一分類,但起碼也應(yīng)該劃入“其他”這一類中。

測(cè)試文本的文本分類結(jié)果呈現(xiàn)

2.1.4?情感分析

NLPIR的“情感分析”提供兩種模式:全文的情感判別(左圖)與指定對(duì)象的情感判別(右圖)。大類上,“情感分析”部分分為“正(面)”和“負(fù)(面)”這兩大類情感,這是內(nèi)層;在外層,兩個(gè)大類又分為“樂(lè)”、“好”、“怒”、“哀”、“懼”、“惡”、“驚”7中細(xì)分的情感,這也就是大家常說(shuō)的“七情六欲”中的“七情”。

目前正負(fù)面的判斷已經(jīng)較為成熟,但鑒于漢語(yǔ)的博大精深和詞匯語(yǔ)義(用法)的波譎多變(反諷、貶義褒用、語(yǔ)境變化等),細(xì)分情緒的判斷準(zhǔn)確度還值得觀察。

測(cè)試文本的情感分析結(jié)果呈現(xiàn)

觀察上面測(cè)試文本的情感分析效果圖,再比對(duì)原始文本,這個(gè)判斷大致上是準(zhǔn)確的,但負(fù)面的部分應(yīng)該比實(shí)際的占比小,尤其是“惡”這個(gè)部分—筆者并未發(fā)現(xiàn)有出現(xiàn)厭惡的語(yǔ)句和詞匯。

2.1.5?關(guān)鍵詞提取

這里的關(guān)鍵詞提取和前面的詞頻統(tǒng)計(jì)有一定的聯(lián)系,但二者的算法(實(shí)現(xiàn)方法)是不一樣的:

  • 詞頻統(tǒng)計(jì):詞頻統(tǒng)計(jì)的是一個(gè)詞在文章中出現(xiàn)次數(shù),出現(xiàn)的次數(shù)越多一般越重要;
  • 關(guān)鍵詞提取:關(guān)鍵詞提取則是依據(jù)TF-IDF(term frequency–inverse document frequency,詞頻–反轉(zhuǎn)文件頻率),用以評(píng)估一個(gè)詞對(duì)于文本內(nèi)容的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。比如,“如果”、“也”、“你們”等詞匯,他們出現(xiàn)的頻次很高,但它們的重要性就很弱。

測(cè)試文本的關(guān)鍵詞分析

從上圖中測(cè)試文本的“關(guān)鍵詞提取”中可以發(fā)現(xiàn),這部分和“詞頻統(tǒng)計(jì)”部分既有重合也有明顯區(qū)分,原因就在于上述的算法不同。

值得注意的是,不論是“詞頻統(tǒng)計(jì)”還是“關(guān)鍵詞提取”,已經(jīng)設(shè)置了“停用詞(stopwords)”,在進(jìn)行上述分析的時(shí)候,自動(dòng)的將那些無(wú)明顯意義的副詞、冠詞、代詞給去掉了。

2.2?文本挖掘工具

文本挖掘工具(注冊(cè)登錄后才可見(jiàn))是一款免費(fèi)的在線的文本分析工具,它可以對(duì)輸入的文本進(jìn)行高頻詞分析、關(guān)鍵詞提取、情感判斷、實(shí)體識(shí)別、詞性分析、關(guān)鍵詞云和關(guān)聯(lián)詞的可視化展示。同時(shí),本工具還為用戶提供了多種自定義設(shè)置,包括分詞模式選擇(3種)、自定義停用詞、自定義詞典、自定義中心關(guān)鍵詞(針對(duì)關(guān)聯(lián)詞圖)、數(shù)據(jù)導(dǎo)出(詞匯、詞頻、權(quán)重)。

更重要的是,高頻詞/關(guān)鍵詞分析的結(jié)果可以導(dǎo)出成excel格式的文件,便于后期分析和處理。

文本挖掘工具的產(chǎn)品主界面

值得注意的是,文本挖掘工具導(dǎo)出的excel文檔有三列:提取出的詞語(yǔ)、詞頻數(shù)、詞匯權(quán)重。后兩個(gè)指標(biāo),筆者已經(jīng)在前面做過(guò)論述,不明白的小伙伴可以“倒帶”回去看看。

2.3 Tone Analyzer

Tone Analyzer是一款由IBM推出的、基于云計(jì)算的人工智能文本分析工具,能對(duì)電子郵件、博客文章以及手機(jī)短信進(jìn)行感情色彩分析,以確定它的措辭是否如實(shí)地表達(dá)了你的憤怒、肯定、高興或者悲傷等感情。

ToneAnalyzer的主界面

這一用來(lái)幫助評(píng)估和改善文字溝通當(dāng)中的語(yǔ)氣的服務(wù)目前尚處實(shí)驗(yàn)?zāi)J?,如獲成功,或?qū)⒏淖兾磥?lái)商家和營(yíng)銷人員同消費(fèi)者、客戶的溝通方式。

更重要的是,它可以應(yīng)用到新媒體運(yùn)營(yíng)者的內(nèi)容校正中來(lái):

  • 用來(lái)查驗(yàn)文章內(nèi)容的調(diào)性和風(fēng)格,了解自己的文字給人留下的印象如何,以使公眾號(hào)的內(nèi)容運(yùn)營(yíng)不偏離預(yù)設(shè)的定位。
  • 幫助品牌運(yùn)營(yíng)者和內(nèi)容輸出分析,撰寫(xiě)何種風(fēng)格的文案才可以引起受眾的共鳴。

Tone?Analyzer的評(píng)價(jià)系統(tǒng)包含三個(gè)維度,各個(gè)維度及其簡(jiǎn)介如下圖所示:

Tone?Analyzer的評(píng)價(jià)系統(tǒng)的三個(gè)維度

以下是Tone?Analyzer的使用案例,大家可以從下面的幾個(gè)模塊中獲得對(duì)文字信息的洞察,這部分筆者不做詳述,感興趣的小伙伴可以去官網(wǎng)查閱文檔。

輸入文本信息和選擇分析類別

文本信息3個(gè)維度的分析結(jié)果

文本信息段落的逐行分析(附有標(biāo)記)

3?熱點(diǎn)捕獲/趨勢(shì)預(yù)測(cè)工具

3.1?搜索指數(shù)型

這里的搜索指數(shù)型趨勢(shì)工具指的是,它們的數(shù)據(jù)絕大部分是基于用戶的搜索行為,即用戶搜索關(guān)鍵詞而形成的數(shù)據(jù)及其展示,有一定的預(yù)測(cè)價(jià)值,但缺點(diǎn)是并不能發(fā)現(xiàn)搜索行為背后的原因。

3.1.1 百度指數(shù)

關(guān)于百度指數(shù)的介紹,筆者僅貼出部分官方關(guān)于功能的介紹:

百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺(tái),它能夠告訴用戶:某個(gè)關(guān)鍵詞在百度的搜索規(guī)模有多大,一段時(shí)間內(nèi)的漲跌態(tài)勢(shì)以及相關(guān)的新聞?shì)浾撟兓?,關(guān)注這些詞的網(wǎng)民是什么樣的,分布在哪里,同時(shí)還搜了哪些相關(guān)的詞,幫助用戶優(yōu)化數(shù)字營(yíng)銷活動(dòng)方案。

關(guān)于詳細(xì)它的使用方法及一些關(guān)鍵原理,筆者在《尋找創(chuàng)業(yè)方向時(shí),如何零成本用大數(shù)據(jù)獲悉市場(chǎng)行情?》有詳述,感興趣的小伙伴可以去看看。

3.1.2 微指數(shù)

(微博)微指數(shù)是新浪微博官方的數(shù)據(jù)分析工具,基于新浪微博的全量數(shù)據(jù),通過(guò)關(guān)鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來(lái)反映微博輿情或賬號(hào)的發(fā)展走勢(shì)。微指數(shù)分為熱詞趨勢(shì)、實(shí)時(shí)趨勢(shì)、(信息分布)地域解讀和(用戶)屬性分析4個(gè)板塊。

“熱詞趨勢(shì)”部分與百度指數(shù)的趨勢(shì)很相像,但它有一個(gè)更為有價(jià)值的地方—點(diǎn)擊趨勢(shì)曲線中的各個(gè)節(jié)點(diǎn),會(huì)顯示出關(guān)注度排名靠前的3條微博,可以做到“知其然并知其所以然”。

微指數(shù)的熱詞趨勢(shì)圖

“實(shí)時(shí)趨勢(shì)”則反映該熱詞近一天的走勢(shì)情況?!暗赜蚪庾x”即該熱詞相關(guān)微博信息的地域分布情況。

最后一個(gè)功能板塊是“屬性分析”,這部分能獲悉關(guān)注該熱詞及其相關(guān)事件的人群畫(huà)像,有性別、年齡、興趣標(biāo)簽比例和星座標(biāo)簽比例這4個(gè)人群屬性。

微指數(shù)的“(人群)屬性分析”

這部分可以參看筆者之前寫(xiě)的兩篇文章《當(dāng)數(shù)據(jù)分析遭遇心理動(dòng)力學(xué):用戶深層次的情感需求浮出水面》、《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營(yíng)的定位和內(nèi)容初始化?》,不失時(shí)機(jī)將其運(yùn)用到實(shí)際的運(yùn)營(yíng)工作中來(lái),而不是僅僅停留在人群屬性的分析描述層面。

3.2?現(xiàn)網(wǎng)信息型

現(xiàn)網(wǎng)信息型,顧名思義,就是該類工具的主要數(shù)據(jù)來(lái)源于現(xiàn)有的網(wǎng)絡(luò)信息(主要是基于社會(huì)化媒體的文本數(shù)據(jù),詳情請(qǐng)參看《干貨|如何利用Social Listening從社會(huì)化媒體中“提煉”有價(jià)值的信息?》),而不是基于網(wǎng)民的搜索行為,因而通過(guò)它可以找到熱詞或事件關(guān)注(量)發(fā)生波動(dòng)起伏的原因。

一般來(lái)說(shuō),這類數(shù)據(jù)產(chǎn)品的典型應(yīng)用領(lǐng)域在輿情領(lǐng)域(包括輿情監(jiān)測(cè)、品牌口碑監(jiān)測(cè)等),比如新浪微熱點(diǎn)(以前叫“新浪微輿情”)。

新浪微熱點(diǎn)的主頁(yè)

新浪微熱點(diǎn)—“熱度指數(shù)”產(chǎn)品頁(yè)面

以下是新浪微熱點(diǎn)這個(gè)大數(shù)據(jù)分析工具的介紹,我們能從中看到現(xiàn)網(wǎng)信息型熱度分析工具的基本原理:

“利用獨(dú)有的分布式網(wǎng)絡(luò)技術(shù),對(duì)互聯(lián)網(wǎng)上輿情、口碑相關(guān)數(shù)據(jù)源進(jìn)行完整采集,同時(shí)根據(jù)用戶預(yù)定的監(jiān)控關(guān)鍵詞對(duì)全網(wǎng)數(shù)據(jù)進(jìn)行補(bǔ)充獲取?!靶吕宋狳c(diǎn)”可以在很短時(shí)間內(nèi)收錄到國(guó)內(nèi)外重要網(wǎng)站、論壇、微博、微信公眾號(hào)、貼吧、博客等互聯(lián)網(wǎng)開(kāi)放平臺(tái)的相關(guān)信息,通過(guò)中文智能分詞、自然語(yǔ)言處理、正負(fù)面研判等大數(shù)據(jù)處理技術(shù)對(duì)收錄到的信息進(jìn)行處理并分析…

可以看出,現(xiàn)網(wǎng)信息型熱度分析工具的數(shù)據(jù)基于現(xiàn)有的全網(wǎng)信息搜集,并經(jīng)過(guò)自然語(yǔ)言處理等技術(shù)對(duì)文本信息進(jìn)行信息的“去粗取精”,從而有效把握事件的重要方面和影響因素?!?/p>

下面,筆者來(lái)詳述新浪微熱點(diǎn)的幾個(gè)很有價(jià)值的功能模塊—分別是熱度指數(shù)(包括熱度指數(shù)、傳播分析、口碑分析和微博情緒)、信息監(jiān)測(cè)、事件分析(包括全網(wǎng)事件分析和微博事件分析)和微博傳播效果分析,它們可以很好的運(yùn)用到新媒體領(lǐng)域,可以在熱點(diǎn)追蹤、內(nèi)容規(guī)劃、受眾畫(huà)像分析和營(yíng)銷分析方面給予運(yùn)營(yíng)者們以有益的指導(dǎo)。

3.2.1 (事件)熱度趨勢(shì)分析

在地震救援中,有一個(gè)概念叫做“黃金72小時(shí)”,它是地質(zhì)災(zāi)害發(fā)生后的黃金救援期。因?yàn)榫仍缯J(rèn)為,災(zāi)難發(fā)生之后存在一個(gè)“黃金72小時(shí)”,在此時(shí)間段內(nèi),災(zāi)民的存活率極高。

同樣,在新媒體內(nèi)容運(yùn)營(yíng)追蹤熱點(diǎn)事件方面,也存在類似的定律,能在最短的時(shí)間內(nèi),把握觀眾所關(guān)注事件的發(fā)展走向和輿論傾向,因勢(shì)利導(dǎo),就能成功的“借勢(shì)“。

新浪微熱點(diǎn)的(事件)熱度趨勢(shì)分析中有一個(gè)能反映事件關(guān)注度的一個(gè)數(shù)據(jù)指標(biāo)—熱度指數(shù),它的全稱是“網(wǎng)絡(luò)傳播熱度指數(shù)”,是指在從新聞媒體、微博、微信、客戶端、網(wǎng)站、論壇等互聯(lián)網(wǎng)平臺(tái)采集海量信息的基礎(chǔ)上,提取與指定事件、人物、品牌、地域等相關(guān)的信息,并對(duì)所提取的信息進(jìn)行標(biāo)準(zhǔn)化計(jì)算后得出的指數(shù)。

熱度指數(shù)能客觀反映事件、人物、品牌、地域等在互聯(lián)網(wǎng)上的受關(guān)注程度。熱度指數(shù)所呈現(xiàn)的數(shù)值為0~100,數(shù)值越大,表明其網(wǎng)絡(luò)受關(guān)注度越高。

下面舉個(gè)栗子,拿前不久廣受關(guān)注的“淘寶被列入惡名市場(chǎng)名單”事件作為分析對(duì)象,來(lái)看看(事件)熱度趨勢(shì)分析的各個(gè)功能模塊是如何運(yùn)用到新媒體運(yùn)營(yíng)領(lǐng)域的。

(1)熱度概況和熱度趨勢(shì)

從下圖的“指數(shù)概況”部分,我們可以看到,淘寶被列入惡名市場(chǎng)名單”在72小時(shí)內(nèi)(當(dāng)然也可以選擇24小時(shí)這個(gè)時(shí)間區(qū)間)的熱度同比增長(zhǎng)達(dá)到62315%,表明互聯(lián)網(wǎng)上關(guān)于該事件的媒體報(bào)道和公眾評(píng)論信息出現(xiàn)驟增的情形,且指數(shù)有將近6%的增幅,幅度不大結(jié)合這兩個(gè)指標(biāo)可以看出,在近72小時(shí)內(nèi)該事件很火熱,且熱度呈現(xiàn)穩(wěn)步增長(zhǎng)的趨勢(shì)。值得注意的是,這里的“同比”和“指數(shù)變化”是針對(duì)此次查詢的72小時(shí)區(qū)間和上一個(gè)72小時(shí)區(qū)間的數(shù)值進(jìn)行對(duì)比的。

在“熱度指數(shù)”部分,由時(shí)間軸和熱度指數(shù)軸構(gòu)成的折線圖反映了近72小時(shí)內(nèi)該事件熱度指數(shù)的變化趨勢(shì),這個(gè)折線圖的分析意義重大,能起到預(yù)測(cè)事件未來(lái)熱度走勢(shì)的神奇作用。

在分析熱度指數(shù)的折線圖的時(shí)候,要注意從微觀層面和宏觀層面上的把握。在微觀層面上,要特別注意折線圖中比較重要的節(jié)點(diǎn),特別是峰值節(jié)點(diǎn),它代表其對(duì)應(yīng)的時(shí)間點(diǎn)它的關(guān)注度較高,要注意發(fā)現(xiàn)事件爆發(fā)的時(shí)間規(guī)律;在宏觀層面上,要看整條折線的整體走向,是整體呈現(xiàn)上升趨勢(shì),還是呈現(xiàn)關(guān)注度的下降趨勢(shì),當(dāng)情況屬于前者時(shí),新媒體運(yùn)營(yíng)者們則可以繼續(xù)跟進(jìn)事件的發(fā)展,接著“借勢(shì)”和“跟風(fēng)”。

熱度概況及熱度趨勢(shì)分析

既然知道了事件熱度的峰值節(jié)點(diǎn)出現(xiàn)在哪個(gè)時(shí)間點(diǎn),這時(shí)我們肯定想了解這些時(shí)間區(qū)間內(nèi)事件關(guān)注度驟然上升的原因。還好,緊接著“熱度趨勢(shì)”,下方給出了其中最突出的峰值節(jié)點(diǎn)出現(xiàn)的原因,以重點(diǎn)信息聚類的方式呈現(xiàn)。

在下圖中,呈現(xiàn)的是12月23日 08時(shí),達(dá)到24的峰值時(shí)的重點(diǎn)信息聚類。給出了這些熱門(mén)文章的標(biāo)題和來(lái)源站點(diǎn),點(diǎn)擊標(biāo)題即可進(jìn)入相應(yīng)的網(wǎng)頁(yè),查看源信息。

最突出峰值節(jié)點(diǎn)的信息聚類

這里需要強(qiáng)調(diào)的是,對(duì)于最突出峰值節(jié)點(diǎn)的重點(diǎn)聚類信息的解讀十分重要,因?yàn)檫@些文章閱讀數(shù)高,抑或是轉(zhuǎn)發(fā)量高,在某種程度上表明了公眾對(duì)于這些信息的認(rèn)可度高,能代表一定的公眾輿論傾向。作為新媒體內(nèi)容運(yùn)營(yíng)者來(lái)說(shuō),引導(dǎo)公眾看法難度太大,不是人人都能做成意見(jiàn)領(lǐng)袖的,能因勢(shì)利導(dǎo)的輸出順應(yīng)公眾觀點(diǎn)的文章可能是上策。

(2)事件熱度信息的關(guān)鍵詞詞云

這里的關(guān)鍵詞云是由互聯(lián)網(wǎng)上各個(gè)渠道的海量信息進(jìn)行中文智能分詞和自然語(yǔ)言處理所得,濃縮了關(guān)于該事件的TOP60關(guān)鍵詞,能在一定程度上反映出事件的各個(gè)要素。

詞語(yǔ)的大小代表該詞出現(xiàn)次數(shù)的多寡,也表明了該關(guān)鍵詞對(duì)于事件的重要程度如何。在進(jìn)行內(nèi)容組織的時(shí)候,可以考慮這些詞頻數(shù)高詞匯所代表的方面,如在“淘寶列入惡名市場(chǎng)名單”這一事件中,除了“惡名市場(chǎng)”、“名單”這些出現(xiàn)在標(biāo)題之中的關(guān)鍵詞外,還有“加大力度”、“納入保護(hù)”、“知識(shí)產(chǎn)權(quán)”等關(guān)鍵詞表征的方面作為文章內(nèi)容的著力方向。

“淘寶列入惡名市場(chǎng)名單”事件的關(guān)鍵詞詞云

(3)事件熱度信息的來(lái)源類型

“信息來(lái)源”部分中,反映出了事件信息的來(lái)源占比情況,比重較大的部分是需要運(yùn)營(yíng)者重點(diǎn)關(guān)注的渠道。

“淘寶列入惡名市場(chǎng)名單”事件的信息在“微博”這一信息渠道中的比重最多,其次是“網(wǎng)站”、“新聞”、“客戶端”等,具體的數(shù)據(jù)為:微博(49.32%)、網(wǎng)站(27.73%)和新聞(10.13%)。

“淘寶列入惡名市場(chǎng)名單”事件的信息來(lái)源分布

針對(duì)微博信息量為何占據(jù)如此大的比重這個(gè)問(wèn)題,筆者找到了今年11月份新浪微博官方的一份關(guān)于微博UGC的數(shù)據(jù),頓時(shí)了然:

新浪微博2016年P(guān)GC、UGC幾項(xiàng)關(guān)鍵數(shù)據(jù)

新浪微輿情是新浪微博旗下的子公司,擁有全量的微博數(shù)據(jù),再加上騰訊微博的信息量,因而其他渠道的信息量比例會(huì)被微博這一渠道巨大的UGC內(nèi)容給稀釋掉,形成絕對(duì)信息量不小但看起來(lái)很少的效果。

(4)事件熱度信息的地域分布

(事件熱度信息的)地域分布反映的是搜索事件的全網(wǎng)信息量在全國(guó)各地的分布情況,這一點(diǎn)與百度指數(shù)的原理一樣。

?“淘寶列入惡名市場(chǎng)名單”事件的信息地域分布

從地域分布來(lái)看,與“淘寶列入惡名市場(chǎng)名單”相關(guān)的信息主要來(lái)源北京(3561條)、廣東(1139條)和上海(834條)。

(5)事件熱度信息的關(guān)聯(lián)詞分析

事件熱度信息的關(guān)聯(lián)詞分析,它是通過(guò)系統(tǒng)自動(dòng)運(yùn)算找出事件核心詞、并計(jì)算出與核心詞同時(shí)出現(xiàn)關(guān)聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關(guān)于“共現(xiàn)”的原理介紹,請(qǐng)看《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營(yíng)的定位和內(nèi)容初始化?》的第三部分)。

下圖中的關(guān)聯(lián)詞和弦圖和對(duì)應(yīng)關(guān)聯(lián)度數(shù)據(jù)表反映了該事件的關(guān)聯(lián)詞情況。

“淘寶列入惡名市場(chǎng)名單”的關(guān)聯(lián)詞分析

通過(guò)對(duì)與“淘寶列入惡名市場(chǎng)名單”相關(guān)的信息進(jìn)行分析后可看出,與其核心詞惡名市場(chǎng)關(guān)聯(lián)度最高的詞語(yǔ)為淘寶(100.00%)、美國(guó)(99.06%)和名單(97.19%)。

3.2.2 信息監(jiān)測(cè)

一直以來(lái),(輿情、口碑)信息監(jiān)測(cè)的主要用戶是政府、大型企業(yè)和專業(yè)新聞媒體,因而對(duì)應(yīng)的主要功能是傾聽(tīng)民意、監(jiān)測(cè)自身(也包含競(jìng)品)的品牌口碑及動(dòng)向,以及追蹤熱點(diǎn)事件走向等。此外,它可以通過(guò)各種預(yù)警設(shè)置,對(duì)關(guān)注事件產(chǎn)生的新信息進(jìn)行第一時(shí)間的提醒,以免運(yùn)營(yíng)者遺漏重要信息。

實(shí)際上,信息監(jiān)測(cè)可以用于新媒體領(lǐng)域,結(jié)合上面提及的“事件熱度趨勢(shì)分析”板塊,媒體運(yùn)營(yíng)者可以有效的追蹤熱點(diǎn)事件的最新進(jìn)展,做到不遺漏。

關(guān)于它的應(yīng)用場(chǎng)景,筆者目前想到2個(gè):

(1)文章轉(zhuǎn)載的全網(wǎng)監(jiān)測(cè)

筆者平時(shí)會(huì)寫(xiě)一些關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)運(yùn)營(yíng)的文章,發(fā)布在一些知名的互聯(lián)網(wǎng)平臺(tái)上,因此想監(jiān)測(cè)一下全網(wǎng)轉(zhuǎn)載的情況,比如筆者最近的一篇文章—《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營(yíng)的定位和內(nèi)容初始化?》,在“信息監(jiān)測(cè)”的監(jiān)測(cè)方案部分設(shè)置好關(guān)鍵詞后,選好時(shí)間區(qū)間,轉(zhuǎn)載的詳細(xì)情況和數(shù)據(jù)統(tǒng)計(jì)圖表盡收眼底:

文章轉(zhuǎn)載的信息列表

筆者文章轉(zhuǎn)載的各種信息反饋圖表

(2)關(guān)注信息的全網(wǎng)監(jiān)測(cè)

運(yùn)營(yíng)者可以在監(jiān)測(cè)方案中按設(shè)置指定的關(guān)鍵詞,定向的追蹤自己感興趣的事件、公司、品牌和資料等信息。

以下是筆者在學(xué)習(xí)數(shù)據(jù)分析時(shí),進(jìn)行的關(guān)鍵詞設(shè)置,多個(gè)零散詞匯通過(guò)邏輯運(yùn)算符形成了一個(gè)監(jiān)測(cè)方案,可以無(wú)遺漏的監(jiān)測(cè)自己關(guān)注的信息,同時(shí)系統(tǒng)也會(huì)過(guò)濾掉垃圾信息。

通過(guò)各種邏輯運(yùn)算符設(shè)置信息監(jiān)測(cè)的關(guān)鍵詞

設(shè)置好監(jiān)測(cè)方案以后,點(diǎn)擊“圖表分析”,即可看到如下圖所示的各種監(jiān)測(cè)方案信息量的可視化分析圖表。

監(jiān)測(cè)方案的信息量的走勢(shì)圖

監(jiān)測(cè)方案的信息量分布情況

監(jiān)測(cè)方案信息量的地理分布情況

再選擇“信息列表”項(xiàng),通過(guò)時(shí)間、地域、渠道等選項(xiàng)的篩選,我們就可以得到自己想要的信息了。此外點(diǎn)擊其中一條信息,即可進(jìn)入信息詳情頁(yè),如下圖所示:

監(jiān)測(cè)方案的信息列表

監(jiān)測(cè)信息的詳情頁(yè)

另外,這個(gè)功能模塊還有幾個(gè)功能,如下圖所示,篇幅有限,感興趣的小伙伴自己去試試吧。

“信息監(jiān)測(cè)”板塊的預(yù)警通知、監(jiān)測(cè)日?qǐng)?bào)和定向監(jiān)測(cè)功能

3.2.3 事件分析

事件分析(包括全網(wǎng)事件分析和微博事件分析)指的是,輸入近期事件或話題關(guān)鍵詞,系統(tǒng)自動(dòng)進(jìn)行深度挖掘和多重分析,記錄事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過(guò)程,分析輿情傳播路徑、關(guān)鍵詞云、發(fā)展態(tài)勢(shì)、受眾反饋和網(wǎng)民觀點(diǎn)分析。

關(guān)于它的實(shí)際使用攻略,筆者之前寫(xiě)過(guò)一篇文章詳細(xì)介紹過(guò),請(qǐng)參看《【數(shù)據(jù)運(yùn)營(yíng)】傅園慧和她的“洪荒之力”的大數(shù)據(jù)輿情分析》。

3.2.4 微博傳播效果分析

微博傳播效果分析通過(guò)分析單條轉(zhuǎn)發(fā)量/評(píng)論量大的的微博,從而得到關(guān)于該微博的傳播路徑、意見(jiàn)領(lǐng)袖、用戶畫(huà)像和微博營(yíng)銷傳播質(zhì)量等。

下面貼一張大圖讓大家感受下:

微博傳播分析的部分功能

限于篇幅,這部分筆者就不詳述了,請(qǐng)參看筆者之前的文章:《【數(shù)據(jù)運(yùn)營(yíng)】揭開(kāi)微博轉(zhuǎn)發(fā)傳播的規(guī)律:以“人民日?qǐng)?bào)”發(fā)布的G20文藝晚會(huì)微博為例》

4?可視化工具

俗話說(shuō):“文不如字,字不如表,表不如圖”,一張富含信息量且外觀時(shí)尚靚麗的圖會(huì)給文章增色不少,會(huì)激起讀者的好奇心,不知不覺(jué)的去圖片中探尋信息,從而讓文章的可讀性大大增加,易于傳播。比如這張圖:

人人都是產(chǎn)品經(jīng)理網(wǎng)站“產(chǎn)品經(jīng)理”專欄所有文章標(biāo)題制成的詞云

怎么樣,想學(xué)了吧?

不急,這個(gè)其實(shí)很簡(jiǎn)單,下面我將以實(shí)例詳細(xì)的講解制作這張圖的步驟,即使是小白的你,也能做出這樣精美的個(gè)性化詞云。

4.1 個(gè)性化詞云制作

我把個(gè)性化詞云的制作分為3個(gè)步驟,即抓取數(shù)據(jù)、文本處理和詞云制作,詳見(jiàn)下圖:

個(gè)性化詞云制作的步驟

4.1.1 數(shù)據(jù)獲取

從本質(zhì)上講,詞云是反映某一特定主題的文本數(shù)據(jù)的可視化展示。比如,上面的喬幫主詞云反映的就是“產(chǎn)品經(jīng)理”專欄中較為熱門(mén)的關(guān)鍵詞/話題。所以,要制作一個(gè)“出彩”且有內(nèi)涵的自定義詞云,文本不能無(wú)規(guī)律,需要定向的獲取特定的文本數(shù)據(jù)。

筆者對(duì)前不久上映且廣受好評(píng)的電影《你的名字》頗感興趣,想分析一下這部電影的市場(chǎng)反響如何,先聊聊這部分?jǐn)?shù)據(jù)的獲取。

對(duì)于影片的分析,首選當(dāng)然是豆瓣電影,因?yàn)樗菄?guó)內(nèi)最具有參考價(jià)值的影評(píng)網(wǎng)站,從文本中能得到很有價(jià)值和有意思的信息。但考慮到文本數(shù)據(jù)獲取的難易程度,我先介紹如下3個(gè)數(shù)據(jù)獲取的方法:

(1)自己編寫(xiě)爬蟲(chóng),想要什么數(shù)據(jù)就去抓取什么數(shù)據(jù),既經(jīng)濟(jì)(用爬蟲(chóng)工具會(huì)花錢),又會(huì)增加“自己動(dòng)手,豐衣足食”的成就感,最重要的是,略施小計(jì)就可以躲避豆瓣的封IP機(jī)制。

用python編寫(xiě)爬蟲(chóng)抓取豆瓣影評(píng)數(shù)據(jù)

(2)利用集搜客這樣的爬蟲(chóng)軟件去抓取數(shù)據(jù),不需要編程技術(shù),且簡(jiǎn)單易上手,但是可能會(huì)被封IP。

(3)采用新浪微熱點(diǎn)這個(gè)大數(shù)據(jù)工具,因而不用豆瓣的評(píng)論數(shù)據(jù),在互聯(lián)網(wǎng)上進(jìn)行全網(wǎng)信息搜集,獲取有關(guān)該影片的熱門(mén)文章標(biāo)題作為分析的文本數(shù)據(jù),這種方法是三種中最為輕松簡(jiǎn)單的,而且獲取的是全網(wǎng)的數(shù)據(jù),大家可以有選擇性的選取自己需要的數(shù)據(jù),操作步驟如下圖所示:

用新浪微熱點(diǎn)獲取文本數(shù)據(jù)

因?yàn)樽罱鼘W(xué)了點(diǎn)Python,故筆者選擇了用Python編寫(xiě)爬蟲(chóng)來(lái)獲取了豆瓣這部分的影評(píng)數(shù)據(jù)。

獲取《你的名字》豆瓣電影的影評(píng)數(shù)據(jù)

抓取后的數(shù)據(jù)整理成如下表格:

保存到本地的《你的名字》豆瓣影評(píng)數(shù)據(jù)

接下來(lái),就是把文本數(shù)據(jù)單獨(dú)取下來(lái)咯,全選“評(píng)論內(nèi)容”這一列,把這些影評(píng)數(shù)據(jù)占到記事本上,作為接下來(lái)分析的“原材料”。

4.1.2 文本處理

一般情況下,文本數(shù)據(jù)的處理包含很多方面,如分詞、詞性標(biāo)注、詞頻統(tǒng)計(jì)、文本分類、情感分析、關(guān)鍵詞提取、文本摘要提取等。

在這里,制作詞云只需要考慮關(guān)鍵詞提取和詞頻統(tǒng)計(jì)這兩個(gè)板塊。

這里使用到的工具是前面提及的熱詞分析工具—文本挖掘工具。將《你的名字》豆瓣評(píng)論的文本部分粘貼到上圖中左邊的文本框中,再點(diǎn)擊右上方的“分析出圖”,系統(tǒng)顯示完成后,右邊的預(yù)設(shè)詞云會(huì)發(fā)生變化,此時(shí)點(diǎn)擊“導(dǎo)出”,即可得到詞頻的csv文件。

經(jīng)文本挖掘工具處理得到的詞頻csv文件

這里去除詞語(yǔ)和詞頻兩列,用來(lái)進(jìn)行接下來(lái)的詞云制作。

4.1.3 詞云制作

處理詞云,筆者用到的工具是Tagul(現(xiàn)更名為Wordart)。下面是它的的主頁(yè)展示:

Tagul主頁(yè)

(1)詞頻載入格式

在頁(yè)面左上方的“Words”處,就是加載詞語(yǔ)及詞頻的地方,這里需要注意一下它的載入格式。,如下表所示:

Tagul的詞頻載入格式

上表中,前兩列的“Word”和“Weight”就是剛才經(jīng)處理過(guò)的詞語(yǔ)和詞頻,Color一欄則是設(shè)置該詞語(yǔ)的顏色,這是個(gè)性化詞云中很關(guān)鍵的一個(gè)要素,會(huì)直接影響到最終的詞云呈現(xiàn)效果。這里可以不填寫(xiě),那么在形成詞云時(shí)默認(rèn)隨機(jī)生成顏色。如果要形成定制化的顏色,則需要設(shè)置采用16進(jìn)制的色值,以下是常用的顏色代碼表,即色值表。

常用的16進(jìn)制色值表

與此類似,字體也可選可不選,需要定制的話,則可進(jìn)行相應(yīng)的設(shè)置。

“Repeat”這項(xiàng)則表示該詞語(yǔ)是否會(huì)重復(fù)出現(xiàn),填寫(xiě)“0”,則表示不重復(fù),填寫(xiě)“1”,則表示重復(fù)。為了保持信息的精準(zhǔn)度,減少噪聲,一般選擇填寫(xiě)“0”。

后面的URL鏈接就忽略了,因?yàn)橛星懊娴脑O(shè)置,就不需要進(jìn)行網(wǎng)頁(yè)鏈接。

按照上述操作,出詞語(yǔ)和詞頻兩例外,筆者還定制了“Color”和“Repeat”這兩項(xiàng),結(jié)果顯示如下。

最終的詞語(yǔ)載入表

全選該表格的文字部分,將其粘貼到“Import Words”的文本框里,進(jìn)行保存。

(2)載入中文字體

因?yàn)門(mén)agul是老外做的一個(gè)在線詞云制作網(wǎng)站,所以Tagul不支持中文,這需要我們載入能支持中文顯示的字體,如下圖所示,筆者載入的是“You Yuan(幼圓)”字體。

載入中文字體

(3)處理背景圖片

加載了字體,可以說(shuō)這是個(gè)性化詞云制作的核心部分,詞云最終效果的美與不美就在此一舉。

值得注意的是,在載入圖片之前的圖片選取步驟時(shí),需要選擇背景和主題對(duì)比比較明顯的圖片。從接下來(lái)的圖片預(yù)處理過(guò)程中,你會(huì)發(fā)現(xiàn)這一點(diǎn)的重要性。

詞云自定義圖片的初始狀態(tài)

筆者選取的是《你的名字》最為標(biāo)志性的一張海報(bào),看起來(lái)很有感覺(jué):既有男女主角的形象,也交代了他們所處的生活環(huán)境,中間則是影片中重要的提條線索—彗星。這張圖初始狀態(tài)看似雜亂,不好處理,但仔細(xì)觀察,可以發(fā)現(xiàn)主體(男女主角)和背景(天空、城市和彗星)之間的對(duì)比度和色相差異還是很明顯的。在Tagul的“Custom Shape”的設(shè)置中可以進(jìn)一步處理背景和主體之間的對(duì)比度問(wèn)題。

在“Shapes”處載入圖片后,點(diǎn)擊上載成功后圖片的右下角“齒輪”,打開(kāi)圖片預(yù)處理。其中,“Threshold”處理景深,可以拉開(kāi)/縮小背景和主體之間的差異;“Edges”則是處理主體輪廓的銳度,可以調(diào)節(jié)圖片的清晰程度模糊程度。這里的要點(diǎn)是—淡化背景,清晰主體輪廓。

淡化背景,強(qiáng)化主體輪廓

好了,完成上面繁瑣的步驟之后,現(xiàn)在是見(jiàn)證奇跡的時(shí)刻了,點(diǎn)擊右上方大大的黑體字“Visualize”,待進(jìn)度條加載完畢后,即可得到如下的最終效果圖:

最終的詞云效果圖

4.2?網(wǎng)絡(luò)可視化利器— Gephi

Gephi是一款開(kāi)源免費(fèi)跨平臺(tái)基于JVM的復(fù)雜網(wǎng)絡(luò)分析軟件, 其主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動(dòng)態(tài)和分層圖的交互可視化與探測(cè)開(kāi)源工具,下載地址為https://gephi.org/。網(wǎng)上目前比較權(quán)威的Gephi教程是在Udemy上的Ooof liu講解的《Gephi中文教程》,地址為https://www.udemy.com/gephi/,看完這個(gè)部分仍有饒有興趣的小伙伴可以去學(xué)習(xí)下。

下面是由Gephi制作的各種網(wǎng)絡(luò)圖,這些圖不僅包含了豐富的信息量,而且極富美感,在吸引眼球的同時(shí)還給予我們有意義的信息。

各種由Gephi制成的網(wǎng)絡(luò)圖

Gephi是一款信息數(shù)據(jù)可視化利器,它的一般應(yīng)用場(chǎng)景如下:

  • 探索性數(shù)據(jù)分析
  • 鏈接分析
  • 語(yǔ)義網(wǎng)絡(luò)分析
  • 社交網(wǎng)絡(luò)分析
  • 生物網(wǎng)絡(luò)分析

以下簡(jiǎn)單介紹下它的使用方法。

在操作下面步驟之前,先去Gephi官網(wǎng)上下載最新版的0.9.1 version,這是免費(fèi)的,且支持中文,還有豐富的插件下載,這簡(jiǎn)直是數(shù)據(jù)可視化愛(ài)好者的福音!

值得注意的是,這款軟件是用Java編寫(xiě)的,所以需要安裝Java環(huán)境,這個(gè)有點(diǎn)磨人。演與演員的關(guān)系作為分析對(duì)象,來(lái)詳細(xì)解讀如何制作一個(gè)“秀外慧中”的社交網(wǎng)絡(luò)可視化圖譜。

4.2.1 制作源數(shù)據(jù)

Gephi的源數(shù)據(jù)可以在excel中完成。在excel中,僅輸入2列即可,表頭嚴(yán)格按照Gephi的格式來(lái)制作,第一列為“Source”,第二列為”Target”。下面以豆瓣上評(píng)分6以下的國(guó)內(nèi)電影的導(dǎo)演(選取的是張藝謀、陳凱歌、馮小剛等大家耳熟能詳?shù)膶?dǎo)演,演員隨之確定)和演員關(guān)系表為例,做成如下格式:

在Excel上編輯Gephi的源數(shù)據(jù)

做好源數(shù)據(jù)之后,記得保存為CSV格式,Gephi僅能讀取這種格式的數(shù)據(jù)。

4.2.2 導(dǎo)入數(shù)據(jù)

在導(dǎo)入數(shù)據(jù)時(shí),分別在“分隔符”、“如表格”、“格式”這三個(gè)選項(xiàng)下選擇“逗號(hào)”、“邊表格”、“GBK”。接下來(lái)點(diǎn)擊“下一步”,完成數(shù)據(jù)的導(dǎo)入。

在Gephi中導(dǎo)入csv數(shù)據(jù)

4.2.3 調(diào)整網(wǎng)絡(luò)布局

剛打開(kāi)“圖”,也就是網(wǎng)絡(luò)圖的圖形界面時(shí),這幾百個(gè)節(jié)點(diǎn)“蝸居”成一團(tuán),有點(diǎn)盤(pán)古開(kāi)天辟地前“渾沌如雞子”的感覺(jué),但這個(gè)模樣離我們心中的審美還有很長(zhǎng)一段距離呢。

初始狀態(tài)的網(wǎng)絡(luò)圖

不過(guò),不用著急,下面幾個(gè)簡(jiǎn)單的步驟就能讓它“脫胎換骨”,完成華麗的變身。

在左上方的“布局”欄目中,選擇其中的任一算法,并可以在下方的操作界面修改默認(rèn)算法參數(shù),也可使用默認(rèn)的參數(shù)。單擊圖中運(yùn)行按鈕,布局算法生效。

選擇“布局”中的算法

選擇不同的“布局”算法,網(wǎng)絡(luò)圖的形態(tài)就會(huì)有相應(yīng)的變化,以下是其中最為典型的集中算法及其拓?fù)鋱D。

各種“布局”算法的網(wǎng)絡(luò)圖拓?fù)湫螒B(tài)

在這里,筆者選取由“Frunchterman Reingold”算法確定的呈蒲公英花朵狀的結(jié)構(gòu)作為初始形態(tài)。

網(wǎng)絡(luò)布局做好后,我們完成了這個(gè)網(wǎng)絡(luò)圖的“骨架”搭建,下一步則需要對(duì)它的外表進(jìn)行修飾,包括節(jié)點(diǎn)、邊和背景等部分的美化。

4.2.4 美化

在這里,我們可以對(duì)網(wǎng)絡(luò)圖進(jìn)行“美容”,給它著上靚麗的顏色和合適的背景作為襯托。

如下圖所示,我們可以在“外觀”一欄對(duì)節(jié)點(diǎn)和邊進(jìn)行著色,然后在下方選擇合適的背景,要注意節(jié)點(diǎn)、邊和背景之間的色差和對(duì)比。

給節(jié)點(diǎn)、邊和背景選擇合適的顏色

還需要注意一點(diǎn),沿著“外觀”>“節(jié)點(diǎn)”>”數(shù)值設(shè)定”這一路徑,讓節(jié)點(diǎn)根據(jù)連接數(shù)的多少而顯示相應(yīng)的大小,使該網(wǎng)絡(luò)圖更有層次感;同理,可以對(duì)邊進(jìn)行類似的設(shè)定,則兩個(gè)聯(lián)系緊密的節(jié)點(diǎn)間的邊將變得更寬。

經(jīng)過(guò)調(diào)整后,可以得到如下的網(wǎng)絡(luò)圖。

顏色調(diào)整后的效果圖

4.2.5 顯示標(biāo)簽

經(jīng)過(guò)上述幾個(gè)操作步驟之后,網(wǎng)絡(luò)圖還需要加入最為重要的一項(xiàng)內(nèi)容—標(biāo)簽,也就是前面提及的導(dǎo)演及演員的姓名,反映在節(jié)點(diǎn)上,由此完成他們之間的社交網(wǎng)絡(luò)圖的基本繪制。

沿著“窗口”>“預(yù)覽設(shè)置”的路徑,打開(kāi)“預(yù)覽設(shè)置”,界面顯示如下。其中,需要在“節(jié)點(diǎn)標(biāo)簽”這部分完成字體的選擇,把默認(rèn)的西文字體變?yōu)橹形淖煮w。除此之外,此處還可以進(jìn)行邊框、字體大小、顏色、透明度等的設(shè)置。

在“預(yù)覽設(shè)置”中設(shè)置中文字體

完成上述選項(xiàng)后,還需要在軟件界面的下方,點(diǎn)擊一下左下角那個(gè)大大的“T”,則節(jié)點(diǎn)標(biāo)簽就會(huì)顯現(xiàn),旁邊也有些字體調(diào)節(jié)鈕,大家可以摸索下。

在“布局”中,選擇“標(biāo)簽調(diào)整”算法,得到下圖:

最終效果圖

圖中各個(gè)節(jié)點(diǎn)的字體隨節(jié)點(diǎn)的重要性(由度、連入度或連出度確定)而呈現(xiàn)出不同之大小。所以,大家先看文字,了解其中最為突出的一些演員和導(dǎo)演,其次在看他們之間的關(guān)系。

筆者比較懶,這個(gè)網(wǎng)絡(luò)圖其實(shí)還可以進(jìn)行更深入的優(yōu)化的,有興趣的小伙伴可以嘗試著做得更絢麗一些。

4.3?數(shù)據(jù)地圖

數(shù)據(jù)地圖,在Excel2013版及以上中都有三維地圖,還有一些BI工具中也集成了這個(gè)模塊,當(dāng)然也有專業(yè)的地圖GIS軟件,如地圖慧、智圖等。由于筆者之前寫(xiě)過(guò)一篇關(guān)于數(shù)據(jù)地圖如何運(yùn)用的文章,在此不再贅述,詳見(jiàn)《運(yùn)營(yíng)實(shí)操|15分鐘學(xué)會(huì)數(shù)據(jù)地圖分析》。

好了,上面的工具部分介紹完畢,該進(jìn)入最終的收尾階段了。在某種意義上講,上面介紹的若干工具都是為接下來(lái)的“數(shù)據(jù)新聞”部分做準(zhǔn)備—它們是數(shù)據(jù)新聞中不可獲取的一部分,是數(shù)據(jù)新聞內(nèi)容呈現(xiàn)的重要“武器”。

5?數(shù)據(jù)新聞

在正式介紹數(shù)據(jù)新聞之前,筆者先聊聊,為什么需要數(shù)據(jù)新聞這種新型的新聞報(bào)道方式。

這里,筆者引用美國(guó)Northwestern University人文與社科學(xué)院的Prof BrianKeegan的一段話作為注解:

“在當(dāng)代,對(duì)于信息過(guò)載,以及恐懼、不確定性和懷疑等情緒的焦慮氛圍下,數(shù)據(jù)驅(qū)動(dòng)的新聞可以起到關(guān)鍵性的作用。它們可以為關(guān)于政策、經(jīng)濟(jì)趨勢(shì)、社會(huì)變革的討論提供更為堅(jiān)實(shí)的經(jīng)驗(yàn)基礎(chǔ)?!?/p>

由此可見(jiàn),信息過(guò)載、信息失真和現(xiàn)實(shí)世界廣泛存在的不確定性,導(dǎo)致人們不再相信沒(méi)有充分依據(jù)的信息,因而數(shù)據(jù)新聞這種更有說(shuō)服力的信息載體呼之欲出。

5.1?數(shù)據(jù)新聞簡(jiǎn)介

數(shù)據(jù)新聞,又叫數(shù)據(jù)驅(qū)動(dòng)新聞。是指基于數(shù)據(jù)的抓取、挖掘、統(tǒng)計(jì)、分析和可視化呈現(xiàn)的新型新聞報(bào)道方式。它致力于從海量數(shù)據(jù)中發(fā)現(xiàn)新聞線索,或是抓取大量數(shù)據(jù)拓展既有新聞主題的廣度與深度,最后依靠可視化技術(shù)將經(jīng)過(guò)過(guò)濾后的數(shù)據(jù)進(jìn)行融合,以形象化、藝術(shù)化的方式加以呈現(xiàn),致力于為讀者提供客觀、系統(tǒng)的報(bào)道以及良好的閱讀體驗(yàn)。

目前,在大數(shù)據(jù)新聞制作上已經(jīng)積累了經(jīng)驗(yàn)的國(guó)際媒體有《衛(wèi)報(bào)》《紐約時(shí)報(bào)》《華盛頓郵報(bào)》等。

以下是常見(jiàn)的數(shù)據(jù)新聞呈現(xiàn)方式:

不同類型的數(shù)據(jù)新聞

需要注意的是,數(shù)據(jù)新聞不一定非得要復(fù)雜的數(shù)據(jù)來(lái)呈現(xiàn)事實(shí),表現(xiàn)出很高的逼格。在很多時(shí)候,簡(jiǎn)單的描述性數(shù)據(jù)即可,就像下面的一個(gè)示例一樣,數(shù)據(jù)圖表的呈現(xiàn)讓讀者更加清晰、直觀的了解到西藏班在“量”和“質(zhì)”上的變遷,是“綠葉”,而內(nèi)地西藏班的整個(gè)發(fā)展歷程才是真正的“紅花”,是該報(bào)道的主線。

一張圖讀懂“內(nèi)地西藏班”

5.2?數(shù)據(jù)新聞的形式

一般情況下,數(shù)據(jù)新聞?dòng)腥缦?種形式:

5.2.1 新聞敘事

數(shù)據(jù)新聞體系下的新聞敘事講求客觀理性和邏輯性,從數(shù)據(jù)視角來(lái)看待事件與社會(huì)話題的方方面面,加之以形象具體的可視化圖表作為最后的呈現(xiàn)方式,使讀者對(duì)內(nèi)容的真實(shí)性和價(jià)值性產(chǎn)生信任。

以下是標(biāo)題為《23萬(wàn)投票紀(jì)錄 回顧第五屆香港立法會(huì)》的數(shù)據(jù)新聞,下面選取了該文中一些具有代表性的數(shù)據(jù)圖示。

《23萬(wàn)投票紀(jì)錄 回顧第五屆香港立法會(huì)》數(shù)據(jù)新聞中的一些圖示

從上圖中,在運(yùn)用數(shù)據(jù)圖示的同時(shí),借助數(shù)據(jù)分析的方法,從多維度總結(jié)了議員的投票行為。這種基于數(shù)據(jù)的的表達(dá),比起單純的文字報(bào)道來(lái),表現(xiàn)清晰,說(shuō)服力強(qiáng)。

5.2.2 事實(shí)判斷

一個(gè)孤立的事件當(dāng)中的少量信息往往缺少關(guān)聯(lián)度,但如果從正確的角度觀察卻能發(fā)現(xiàn)極為重要的價(jià)值。透過(guò)數(shù)據(jù),內(nèi)容運(yùn)營(yíng)者可以發(fā)現(xiàn)僅憑知覺(jué)和傳聞難以感知的、隱藏在事件/新聞背后線索或假設(shè),抽絲剝繭、言之鑿鑿的把事件的來(lái)龍去脈和其中緣由講述透徹。

2016年7月25號(hào)在DT財(cái)經(jīng)上有一篇文章,文章標(biāo)題為《10萬(wàn)條掛號(hào)大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》,文章中全篇引用了掛號(hào)網(wǎng)各個(gè)維度的一手10W數(shù)據(jù)。采用循序漸進(jìn)的邏輯描述并分析看病難互聯(lián)網(wǎng)也很難解決這一難題。重要的是,作者將這些數(shù)據(jù)制作成可視化的數(shù)據(jù)圖表,從掛號(hào)網(wǎng)注冊(cè)醫(yī)院分布、支持網(wǎng)絡(luò)預(yù)約功能的醫(yī)院占比到預(yù)約掛號(hào)量超10萬(wàn)的醫(yī)院和人數(shù)分布情況,最后到患者參與分享的比例及對(duì)候診時(shí)間的滿意度分析,將這些數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)地圖、點(diǎn)狀圖、旋風(fēng)圖和趣味條形圖等可視化形式呈現(xiàn)出來(lái)。

《10萬(wàn)條掛號(hào)大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》中的可視化圖表

從這個(gè)例子可以看出,數(shù)據(jù)新聞的報(bào)道方式能夠在宏觀上對(duì)某個(gè)事件看得更加清楚與全面,事件復(fù)雜的演進(jìn)過(guò)程以及這個(gè)過(guò)程中的各個(gè)方面,都能描述得直觀且有趣,最重要的是,很能讓異見(jiàn)者服氣。

5.2.3 預(yù)測(cè)走向

通過(guò)數(shù)據(jù)的挖掘和分析,尋找出有價(jià)值的相關(guān)性,繼而增加對(duì)相關(guān)事件發(fā)展趨勢(shì)的預(yù)測(cè)性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報(bào)道,成為大數(shù)據(jù)時(shí)代的新聞業(yè)務(wù)發(fā)展方向。

下圖是CNN在今年7月份關(guān)于美國(guó)總統(tǒng)大選預(yù)測(cè)的數(shù)據(jù)新聞,全篇大篇幅的介紹了當(dāng)下美國(guó)社交媒體上各州對(duì)候選人的支持情況、通過(guò)復(fù)雜算法得出的候選人各州獲勝的概率以及哪個(gè)州對(duì)于總統(tǒng)選舉具有決定性意義等。

CNN在2016年7月份關(guān)于美國(guó)總統(tǒng)大選的預(yù)測(cè)(局部)

5.3?如何成為一個(gè)優(yōu)秀的數(shù)據(jù)新聞內(nèi)容運(yùn)營(yíng)者

數(shù)據(jù)新聞學(xué)是一門(mén)交叉的學(xué)科,數(shù)據(jù)新聞的產(chǎn)生給傳統(tǒng)的新聞工作者提出了挑戰(zhàn),傳統(tǒng)的新聞創(chuàng)作理念和方式,要求新聞工作者具備采寫(xiě)編評(píng)等基本專業(yè)技能,但目前已無(wú)法滿足大數(shù)據(jù)時(shí)代下數(shù)據(jù)新聞的創(chuàng)作。

要做好數(shù)據(jù)新聞,需要運(yùn)營(yíng)者著重提升以下4個(gè)方面的素養(yǎng)/能力:

5.3.1?敏銳的數(shù)據(jù)洞察力

數(shù)據(jù)新聞需要大量的數(shù)據(jù)、數(shù)據(jù)分析處理,不僅僅是要有技術(shù)水平,更需要一雙慧眼,分得清“真數(shù)據(jù)”和“假數(shù)據(jù)”,而且還要選擇重要的數(shù)據(jù)和信息進(jìn)行內(nèi)容輸出,為受眾提供更細(xì)致、精確的事件分析,又快又準(zhǔn)的報(bào)道新聞,數(shù)據(jù)新聞的把關(guān)在數(shù)據(jù)時(shí)代更為重要。

媒體工作者需多渠道的收集數(shù)據(jù)。從公開(kāi)的數(shù)據(jù)庫(kù)或者是政府部門(mén)、企業(yè)、機(jī)構(gòu)中獲取數(shù)據(jù),從這些海量信息中判斷和選擇有表現(xiàn)力的數(shù)據(jù)。當(dāng)媒體工作者獲取數(shù)據(jù)之后,便開(kāi)始處理和整合數(shù)據(jù)。將與新聞報(bào)道無(wú)關(guān)的數(shù)據(jù)篩選、過(guò)濾后,剩下有用的數(shù)據(jù)進(jìn)行整合匯編,形成新的報(bào)道內(nèi)容。

新聞工作者通過(guò)數(shù)據(jù)的挖掘和分析,尋找出有價(jià)值的相關(guān)性,繼而增加對(duì)相關(guān)事件發(fā)展趨勢(shì)的預(yù)測(cè)性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報(bào)道,成為大數(shù)據(jù)時(shí)代的新聞業(yè)務(wù)發(fā)展方向。

5.3.2?熟練運(yùn)用計(jì)算機(jī)能力

在如今信息爆炸的大數(shù)據(jù)時(shí)代,特別是社交網(wǎng)絡(luò)、電子商務(wù)與移動(dòng)通信把人類社會(huì)帶入了一個(gè)以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代。大量的數(shù)據(jù)和信息擺在新聞工作者面前,傳統(tǒng)的計(jì)算機(jī)無(wú)法處理大量的、無(wú)規(guī)律的數(shù)據(jù),需要云計(jì)算進(jìn)行分析、處理、統(tǒng)計(jì)。

因此,對(duì)于當(dāng)今的新聞工作者提出了更高的要求,必須熟練運(yùn)用計(jì)算機(jī),掌握一門(mén)編程語(yǔ)言。如果之前沒(méi)有編程基礎(chǔ),推薦python,它的設(shè)計(jì)哲學(xué)是“優(yōu)雅”、“明確”、“簡(jiǎn)單”,掌握一些常用的爬蟲(chóng)包、數(shù)據(jù)分析及可視化包以及自然語(yǔ)言處理包,就能很好的將大量的數(shù)據(jù)和信息進(jìn)行友好的呈現(xiàn)。

5.3.3?分析處理數(shù)據(jù)能力

數(shù)據(jù)新聞與傳統(tǒng)的文字圖片新聞不一樣,數(shù)據(jù)新聞需要大量的數(shù)據(jù),新聞工作者可以通過(guò)數(shù)據(jù)發(fā)現(xiàn)問(wèn)題、提出問(wèn)題,也可以先有了問(wèn)題之后,再去收集相關(guān)的數(shù)據(jù)。而擁有大量數(shù)據(jù)后,必須對(duì)其進(jìn)行分析和處理,將不需要或不相關(guān)的數(shù)據(jù)過(guò)濾掉,剩下有價(jià)值的數(shù)據(jù)加以分析整合,供新聞編輯使用。德勤在美國(guó)華盛頓特區(qū)的研發(fā)創(chuàng)新團(tuán)隊(duì)招聘數(shù)據(jù)記者,其中最重要的要求就是要具備分析數(shù)據(jù)的能力,由此可見(jiàn),數(shù)據(jù)新聞?dòng)浾弑仨毦邆漭^強(qiáng)的數(shù)據(jù)分析和處理的能力,才能勝任此工作。

5.3.4?可視化平面設(shè)計(jì)能力

數(shù)據(jù)新聞的可視化表達(dá)為新聞行業(yè)注入了一股新鮮的血液,讓數(shù)據(jù)新聞充滿希望與活力。數(shù)據(jù)新聞的可視化圖片將不同的時(shí)間和空間聯(lián)系在一起,將繁雜的數(shù)據(jù)簡(jiǎn)單化,便于受眾理解,更有利于受眾參與其中,滿足不同受眾的各方面需求。數(shù)據(jù)新聞的可視化是其一大特點(diǎn),因此對(duì)于新聞工作者來(lái)說(shuō),應(yīng)熟練掌握可視化技術(shù),學(xué)會(huì)識(shí)圖制圖以及各種表格的制作。

最后,筆者介紹一個(gè)數(shù)據(jù)新聞的資料庫(kù),在這里小伙伴們可以看到國(guó)內(nèi)外許多優(yōu)秀的數(shù)據(jù)新聞案例,要做優(yōu)秀的數(shù)據(jù)新聞制作者,首先從模仿學(xué)習(xí)做起。

新華網(wǎng)數(shù)據(jù)新聞信息庫(kù)鏈接地址:http://djchina.org/showcase/

好了,看到這里的小伙伴,我?guī)缀蹩梢詳喽ㄊ钦鎼?ài)了,希望你們能掌握好這些“工具”,成為運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”,不必羨慕什么“技術(shù)流”,因?yàn)閯?chuàng)造性思維和強(qiáng)烈的好奇心會(huì)給你帶來(lái)好運(yùn)的,等到工具、技能和思維三者融會(huì)貫通的時(shí)候,就會(huì)像獨(dú)孤求敗那樣:

“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!

參考資料

  1. 范冰,《增長(zhǎng)黑客》
  2. 新浪微熱點(diǎn)官網(wǎng)官方介紹
  3. NLPIR在線系統(tǒng)官方介紹
  4. IBM Watson?Tone?Analyzer官方文檔
  5. 百度百科“數(shù)據(jù)新聞”詞條
  6. CNN在2016.07美國(guó)總統(tǒng)大選預(yù)測(cè)網(wǎng)站
  7. FT數(shù)據(jù)新聞網(wǎng)

#專欄作家#

蘇格蘭折耳喵,微信公眾號(hào):運(yùn)營(yíng)喵是怎樣煉成的,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛(ài)好者,擅長(zhǎng)數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 看了兩遍,真贊??!

    來(lái)自福建 回復(fù)
  2. 先收藏 再看看

    來(lái)自北京 回復(fù)
  3. 有適合新手的嗎,看不太懂

    來(lái)自湖南 回復(fù)
  4. 牛逼的不行

    回復(fù)
  5. 文本挖掘工具的鏈接不對(duì) ??

    來(lái)自福建 回復(fù)
    1. 你得登錄

      回復(fù)
  6. 老哥,牛逼了,瘋狂為你打電話啊

    來(lái)自上海 回復(fù)
    1. ??

      來(lái)自浙江 回復(fù)
  7. 數(shù)碼寶貝里的不叫小精靈……

    來(lái)自廣東 回復(fù)
    1. 是不叫這個(gè),這是我叫的,準(zhǔn)確的來(lái)說(shuō),應(yīng)該打上雙引號(hào)。哈哈哈

      來(lái)自上海 回復(fù)
  8. 感謝分享

    來(lái)自浙江 回復(fù)
  9. 是我是我還是我,居然看到快10點(diǎn)了。給大佬獻(xiàn)上我的膝蓋 ??

    來(lái)自北京 回復(fù)
    1. 勤奮好學(xué),終有所成~為你點(diǎn)個(gè)贊??

      回復(fù)
  10. 感謝分享

    來(lái)自廣東 回復(fù)
  11. 感謝分享,邊看邊操作的,成功做出來(lái)了詞云,還有好多內(nèi)容不會(huì),慢慢吸收

    來(lái)自北京 回復(fù)
    1. 練中學(xué),干中會(huì),設(shè)這個(gè)理兒! ??

      來(lái)自上海 回復(fù)
  12. 收集的真全,再給你推薦個(gè) DataExa

    來(lái)自北京 回復(fù)
    1. 這個(gè)產(chǎn)品太貴且申請(qǐng)麻煩,我分享的都是觸手可及或是免費(fèi)的工具。

      來(lái)自上海 回復(fù)
  13. 牛逼的不要不要的

    來(lái)自廣東 回復(fù)
  14. 好難吸收! ?

    來(lái)自廣東 回復(fù)
    1. 邊看邊操作,慢慢會(huì)吸收的

      來(lái)自上海 回復(fù)
  15. 寫(xiě)的不錯(cuò) ??

    來(lái)自內(nèi)蒙古 回復(fù)
  16. 太有收獲了,厲害呀前輩,膜拜

    來(lái)自四川 回復(fù)
  17. 喵~! ?? 很不錯(cuò)哦。

    來(lái)自廣東 回復(fù)
  18. 沒(méi)有比工具更干貨的東西

    來(lái)自河南 回復(fù)
    1. 嗯,工具是手和大腦的延伸,能干很多我們干不了的事情

      來(lái)自上海 回復(fù)
  19. 厲害了,還有個(gè)工具Tableau,做可視化很不錯(cuò)的

    來(lái)自廣東 回復(fù)
    1. 那是BI了,要花銀子的

      來(lái)自上海 回復(fù)
  20. 好的

    來(lái)自上海 回復(fù)
  21. 不是在這里獲取嗎??

    回復(fù)
  22. 清晰文檔

    回復(fù)
  23. 我對(duì)新浪微輿情熱點(diǎn)趨勢(shì)預(yù)測(cè)那塊很感興趣,試了下,果然像喵哥說(shuō)的那樣,能研判事件的走向,牛?。。?/p>

    回復(fù)
    1. 靈活運(yùn)用工具很重要,我說(shuō)的這些用法官方說(shuō)明里可沒(méi)有哦 ??

      來(lái)自上海 回復(fù)
  24. 圖悅之前有用過(guò),當(dāng)時(shí)覺(jué)得有局限性且詞云效果不好,不夠美觀,所以棄了;百度指數(shù)倒是經(jīng)常使用,可以看到關(guān)鍵詞的搜索規(guī)模情況及漲跌態(tài)勢(shì),不過(guò)樓主介紹的新浪微輿情的最突出的峰值節(jié)點(diǎn)的重點(diǎn)信息聚類不錯(cuò);其實(shí)新浪微輿情我也一直有在用它的信息監(jiān)測(cè)還有事件分析功能,感覺(jué)非常好用,比較專業(yè),其他功能后面陸續(xù)還會(huì)試用。總之,拜讀完文章受益匪淺,小工具都非常實(shí)用,樓主辛苦了,感謝!

    來(lái)自上海 回復(fù)
    1. 能幫到大家,吾心足矣! ??

      來(lái)自上海 回復(fù)
  25. 微輿情的這個(gè)趨勢(shì)預(yù)測(cè)功能真的蠻強(qiáng)大的,對(duì)于新媒體運(yùn)營(yíng)很有幫助。

    來(lái)自上海 回復(fù)
    1. 工具是死的,人是活的,會(huì)用就能發(fā)揮出奇效 ??

      來(lái)自上海 回復(fù)
  26. ??

    來(lái)自上海 回復(fù)
    1. ??

      來(lái)自上海 回復(fù)