萬(wàn)字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”
不必羨慕什么“技術(shù)流”,即使是不懂技術(shù)和復(fù)雜數(shù)學(xué)知識(shí)的你,照樣能成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”!因?yàn)閯?chuàng)造性思維和強(qiáng)烈的好奇心會(huì)給你帶來(lái)好運(yùn)的,等到工具、技能和思維三者融會(huì)貫通的時(shí)候,就會(huì)像獨(dú)孤求敗那樣——“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!
1?成為新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”
1.1 一般意義上的“增長(zhǎng)黑客”
“增長(zhǎng)黑客(Growth Hacker)”,這個(gè)近幾年來(lái)風(fēng)靡中國(guó)互聯(lián)網(wǎng)界的新興概念,濫觴于美國(guó)硅谷互聯(lián)網(wǎng)創(chuàng)業(yè)圈,國(guó)內(nèi)則是由范冰首先引進(jìn),他的著作《增長(zhǎng)黑客:創(chuàng)業(yè)公司的用戶與收入增長(zhǎng)秘籍》使這個(gè)概念深入人心。
結(jié)合國(guó)內(nèi)外關(guān)于“增長(zhǎng)黑客”的表述:“增長(zhǎng)黑客”是以數(shù)據(jù)驅(qū)動(dòng)營(yíng)銷、以市場(chǎng)指導(dǎo)產(chǎn)品,通過(guò)技術(shù)手段貫徹增長(zhǎng)目標(biāo)的一群人。這就需要他們既了解技術(shù),寫(xiě)得了代碼;又能了解人性,能捕捉用戶的心理感受和真實(shí)需求;最重要的是,他們經(jīng)常能突發(fā)奇想,發(fā)揮創(chuàng)意,大開(kāi)腦洞,以小的投入獲取較多的用戶和收入。
一言以蔽之,“增長(zhǎng)黑客”就是具備各種跨界技能,可以利用各種巧妙的手段以極小的成本獲取大量用戶,實(shí)現(xiàn)最終的收入增加。
“增長(zhǎng)黑客”讓那些資金不夠充裕、前期資源緊缺和初始用戶匱乏的初創(chuàng)型互聯(lián)網(wǎng)初創(chuàng)團(tuán)隊(duì)看到了“四兩撥千斤”的希望,小投入也能辦大事。
“增長(zhǎng)黑客”的一個(gè)很好的理念,但它在不同的互聯(lián)網(wǎng)領(lǐng)域有著不同的形態(tài),具體的實(shí)現(xiàn)手法也不盡相同,比如在新媒體運(yùn)營(yíng)領(lǐng)域。
1.2 新媒體運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”
新媒體是跟隨互聯(lián)網(wǎng)興起的一個(gè)新興媒體形態(tài),它已經(jīng)在很大程度上顛覆了以往的紙質(zhì)刊物、廣播及電視等傳統(tǒng)媒體,重要性不言而喻。關(guān)于它的概念和內(nèi)涵,筆者不想多說(shuō),網(wǎng)上有很多的詳細(xì)介紹。在這里,筆者認(rèn)為新媒體最為重要的一個(gè)特征是:
人人都可以是信息的生產(chǎn)者,人人也都是信息的傳播者。
這意味著無(wú)論是誰(shuí),包含企業(yè)、機(jī)構(gòu)還有個(gè)人,都有機(jī)會(huì)成為這個(gè)新媒體時(shí)代的成功者。咪蒙、一條、十點(diǎn)讀書(shū)即是例證。
然而,隨著中國(guó)的互聯(lián)網(wǎng)時(shí)代進(jìn)入下半場(chǎng),新媒體行業(yè)也從野蠻生長(zhǎng)的時(shí)代進(jìn)入“弱肉強(qiáng)食”的“叢林時(shí)代”,常規(guī)的新媒體運(yùn)營(yíng)手段(包括內(nèi)容、展現(xiàn)形式及推廣方法等)已經(jīng)很難從用戶增長(zhǎng)緩慢和收入增長(zhǎng)停滯的困境中突圍出來(lái)。
寫(xiě)到這里,筆者不由得想到兒時(shí)看過(guò)的動(dòng)漫——《數(shù)碼寶貝》中的主人公身邊各類可愛(ài)的小精靈,在遇到危急情況時(shí)會(huì)進(jìn)化,由“成長(zhǎng)期”進(jìn)化到“成熟期”、“完全體”,甚至是“究極體?”,適應(yīng)性和攻擊力呈現(xiàn)指數(shù)級(jí)的提升,足以在危如累卵的逆境中打敗強(qiáng)大的敵人,反敗為勝。
與此類似,廣大新媒體從業(yè)者們?cè)谶@個(gè)時(shí)候,也需要“進(jìn)化”,完成華麗的轉(zhuǎn)身—采用精細(xì)運(yùn)作、量化分析的科學(xué)手段去進(jìn)行新媒體運(yùn)營(yíng),以適應(yīng)這個(gè)足以革新我們思維觀念的“大數(shù)據(jù)時(shí)代”,而“增長(zhǎng)黑客”正是一劑良方。
從前面對(duì)“增長(zhǎng)黑客”的介紹中,我們可以發(fā)現(xiàn):
“增長(zhǎng)黑客”是一個(gè)多面手的角色,需要掌握跨領(lǐng)域的知識(shí),其中最為核心的技能即是懂技術(shù)、精通數(shù)據(jù)分析。
然而,技術(shù)(碼代碼、編寫(xiě)程序等)和數(shù)據(jù)分析(數(shù)學(xué)知識(shí)和BI軟件操作等)對(duì)于很多做新媒體運(yùn)營(yíng)的小伙伴來(lái)說(shuō),是十分棘手的兩樣事物:很多從事新媒體運(yùn)營(yíng)的小伙伴是正兒八經(jīng)的文科生畢業(yè),文案和排版方面,他們可以說(shuō)是“長(zhǎng)袖善舞”,但技術(shù)和數(shù)據(jù)分析卻可能是他們的“夢(mèng)魘”。
鑒于這種情形,筆者提倡“人+數(shù)據(jù)驅(qū)動(dòng)思維+工具”理念—以人為本,從運(yùn)營(yíng)者自身的知識(shí)結(jié)構(gòu)出發(fā),以數(shù)據(jù)/量化思維作為方法論,用工具輔助運(yùn)營(yíng),從而做到揚(yáng)長(zhǎng)避短,把自己的精力集中在重要的事情上。
筆者在這里特意收羅了10幾款跟數(shù)據(jù)分析有關(guān)的工具,以彌補(bǔ)技術(shù)小白和數(shù)據(jù)分析小白技能上的匱乏,而且掌握它們不需要很懂技術(shù),連數(shù)據(jù)分析這項(xiàng)技能也能借助它們輕松get。
值得注意的是,本文所要介紹的工具,并不是狹義上的“工具”,如可視化工具、文本分析工具和事件熱度趨勢(shì)/預(yù)測(cè)分析操作類工具,還包括數(shù)據(jù)新聞這種廣義上的新型信息載體;更為重要的是,他們分別代表著四種思維/觀念—重視非結(jié)構(gòu)性數(shù)據(jù)、科學(xué)化預(yù)測(cè)、信息的具象化呈現(xiàn)以及用數(shù)據(jù)講故事,這些“工具”都是為達(dá)到、完成或促進(jìn)新媒體運(yùn)營(yíng)效果的有利武器。
如下圖所示,以下是本文的行文結(jié)構(gòu):
新媒體運(yùn)營(yíng)的“增長(zhǎng)黑客”數(shù)據(jù)分析工具箱
2?文本分析工具
文本分析的重要性筆者已經(jīng)在之前的兩篇文章中有過(guò)論述,詳見(jiàn)《數(shù)據(jù)運(yùn)營(yíng)|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>》《在運(yùn)營(yíng)中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個(gè)實(shí)際案例,五點(diǎn)分析(下)》,故本文不做贅述,直奔工具應(yīng)用的主題。
2.1 NLPIR在線系統(tǒng)
NLPIR,即“自然語(yǔ)言處理與信息檢索共享平臺(tái)”的英文縮寫(xiě), 打開(kāi)該網(wǎng)址,即可進(jìn)入主界面—“語(yǔ)義分析系統(tǒng)”,顧名思義,它是一個(gè)在線的中文語(yǔ)義分析工具,因?yàn)榉巧虡I(yè)化,它對(duì)處理文本的篇幅大小也有限制,只能處理3000字,可以給熱衷于文本分析的小伙伴過(guò)過(guò)癮,但要想用于商業(yè)目的,那只能呵呵了。
NLPIR在線系統(tǒng)的首頁(yè)
上圖中間部分的11個(gè)圓圈即是該系統(tǒng)的所有功能,但其中有幾個(gè)只是掛出來(lái),目前還未實(shí)現(xiàn),結(jié)合新媒體運(yùn)營(yíng)工作中的實(shí)際需求,筆者只介紹其中幾個(gè)比較有實(shí)用價(jià)值的功能模塊。
以下以《<你的名字。>破5.5億元日媒:和中國(guó)聯(lián)手有錢賺》這則新聞作為測(cè)試文本,筆者來(lái)給大家介紹下這個(gè)系統(tǒng)中的實(shí)體抽取、詞頻統(tǒng)計(jì)、文本分類、情感分析和關(guān)鍵詞提取這5個(gè)比較有實(shí)用價(jià)值、且準(zhǔn)確度較高的功能模塊。
2.1.1?實(shí)體抽取
NLPIR中的“實(shí)體抽取”功能模塊可以智能識(shí)別出測(cè)試文本中出現(xiàn)的人名、地名、機(jī)構(gòu)名、媒體、作者及文章的主題關(guān)鍵詞,這是對(duì)語(yǔ)言規(guī)律的深入理解和科學(xué)預(yù)測(cè),它提煉出的詞語(yǔ)不需要在詞典庫(kù)中事先存在。
實(shí)體抽取的圖表效果支持力導(dǎo)向圖和弦圖這兩種形式,如下圖所示:
測(cè)試文本“實(shí)體抽取”的2種呈現(xiàn)形式
上圖中,從“文本”這個(gè)一級(jí)類目中,分別分出了“關(guān)鍵詞”、“地名”、“時(shí)間”這3個(gè)二級(jí)類目,由此能大致判斷出測(cè)試文本中包含的事件元素,如主題是關(guān)于電影的,涉及國(guó)家(地區(qū))間的對(duì)比,還有縱向時(shí)間維度的分析,一些關(guān)鍵詞能讓我們把握文章中重要的詞句。
2.1.2?詞頻統(tǒng)計(jì)
在一份給定的文件里,詞頻(term frequency,TF)指的是某一個(gè)給定的詞語(yǔ)在該文件中出現(xiàn)的次數(shù)。
在文本分析中,詞頻統(tǒng)計(jì)是較為常規(guī)的、同時(shí)也是最為重要的一個(gè)環(huán)節(jié),它用來(lái)評(píng)估一個(gè)詞對(duì)于一個(gè)文件或者一個(gè)語(yǔ)料庫(kù)中的一個(gè)領(lǐng)域文件集的重要程度。
NLPIR只展示了名詞、動(dòng)詞、形容詞這3種開(kāi)放詞類,這個(gè)3個(gè)此類也是一段文本中最為重要的3個(gè)部分:
- 名詞介紹文章中的各個(gè)主體,能讓我們知道文本描述的對(duì)象是誰(shuí);
- 動(dòng)詞表征各個(gè)主體的動(dòng)作和行為,能讓我們知道關(guān)于主體發(fā)生了什么;
- 而形容詞則能描述主體及動(dòng)作/行為的特征,能讓我們知道主體及其行為/動(dòng)作的性質(zhì)、狀態(tài)、特征或?qū)傩浴?/li>
NLPIR的詞頻統(tǒng)計(jì)只展示了上述詞類的Top 10結(jié)果,以折線圖和條形圖的形式進(jìn)行展現(xiàn)??戳讼旅娴脑~頻分類展示,聯(lián)想文章標(biāo)題,我們很自然地了解到《你的名字?!愤@部電影在市場(chǎng)上獲得了不錯(cuò)的業(yè)績(jī),引發(fā)中日媒體的廣泛報(bào)道和關(guān)注……
測(cè)試文本的詞頻統(tǒng)計(jì)呈現(xiàn)
2.1.3?文本分類
NLPIR“文本分類”部分目前所展示的類別只是新聞的政治、經(jīng)濟(jì)、軍事、交通等,分類有待擴(kuò)展和細(xì)化。
NLPIR深度文本分類,可以用于新聞分類、簡(jiǎn)歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。此外,它還可以實(shí)現(xiàn)文本過(guò)濾,能夠從大量文本中快速識(shí)別和過(guò)濾出符合特殊要求的信息,可應(yīng)用于品牌報(bào)道監(jiān)測(cè)、垃圾信息屏蔽、敏感信息審查等領(lǐng)域。
然而,從測(cè)試的效果來(lái)看,這個(gè)功能模塊的分析效果還不甚準(zhǔn)確,它沒(méi)有“娛樂(lè)”這一分類,但起碼也應(yīng)該劃入“其他”這一類中。
測(cè)試文本的文本分類結(jié)果呈現(xiàn)
2.1.4?情感分析
NLPIR的“情感分析”提供兩種模式:全文的情感判別(左圖)與指定對(duì)象的情感判別(右圖)。大類上,“情感分析”部分分為“正(面)”和“負(fù)(面)”這兩大類情感,這是內(nèi)層;在外層,兩個(gè)大類又分為“樂(lè)”、“好”、“怒”、“哀”、“懼”、“惡”、“驚”7中細(xì)分的情感,這也就是大家常說(shuō)的“七情六欲”中的“七情”。
目前正負(fù)面的判斷已經(jīng)較為成熟,但鑒于漢語(yǔ)的博大精深和詞匯語(yǔ)義(用法)的波譎多變(反諷、貶義褒用、語(yǔ)境變化等),細(xì)分情緒的判斷準(zhǔn)確度還值得觀察。
測(cè)試文本的情感分析結(jié)果呈現(xiàn)
觀察上面測(cè)試文本的情感分析效果圖,再比對(duì)原始文本,這個(gè)判斷大致上是準(zhǔn)確的,但負(fù)面的部分應(yīng)該比實(shí)際的占比小,尤其是“惡”這個(gè)部分—筆者并未發(fā)現(xiàn)有出現(xiàn)厭惡的語(yǔ)句和詞匯。
2.1.5?關(guān)鍵詞提取
這里的關(guān)鍵詞提取和前面的詞頻統(tǒng)計(jì)有一定的聯(lián)系,但二者的算法(實(shí)現(xiàn)方法)是不一樣的:
- 詞頻統(tǒng)計(jì):詞頻統(tǒng)計(jì)的是一個(gè)詞在文章中出現(xiàn)次數(shù),出現(xiàn)的次數(shù)越多一般越重要;
- 關(guān)鍵詞提取:關(guān)鍵詞提取則是依據(jù)TF-IDF(term frequency–inverse document frequency,詞頻–反轉(zhuǎn)文件頻率),用以評(píng)估一個(gè)詞對(duì)于文本內(nèi)容的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。比如,“如果”、“也”、“你們”等詞匯,他們出現(xiàn)的頻次很高,但它們的重要性就很弱。
測(cè)試文本的關(guān)鍵詞分析
從上圖中測(cè)試文本的“關(guān)鍵詞提取”中可以發(fā)現(xiàn),這部分和“詞頻統(tǒng)計(jì)”部分既有重合也有明顯區(qū)分,原因就在于上述的算法不同。
值得注意的是,不論是“詞頻統(tǒng)計(jì)”還是“關(guān)鍵詞提取”,已經(jīng)設(shè)置了“停用詞(stopwords)”,在進(jìn)行上述分析的時(shí)候,自動(dòng)的將那些無(wú)明顯意義的副詞、冠詞、代詞給去掉了。
2.2?文本挖掘工具
文本挖掘工具(注冊(cè)登錄后才可見(jiàn))是一款免費(fèi)的在線的文本分析工具,它可以對(duì)輸入的文本進(jìn)行高頻詞分析、關(guān)鍵詞提取、情感判斷、實(shí)體識(shí)別、詞性分析、關(guān)鍵詞云和關(guān)聯(lián)詞的可視化展示。同時(shí),本工具還為用戶提供了多種自定義設(shè)置,包括分詞模式選擇(3種)、自定義停用詞、自定義詞典、自定義中心關(guān)鍵詞(針對(duì)關(guān)聯(lián)詞圖)、數(shù)據(jù)導(dǎo)出(詞匯、詞頻、權(quán)重)。
更重要的是,高頻詞/關(guān)鍵詞分析的結(jié)果可以導(dǎo)出成excel格式的文件,便于后期分析和處理。
文本挖掘工具的產(chǎn)品主界面
值得注意的是,文本挖掘工具導(dǎo)出的excel文檔有三列:提取出的詞語(yǔ)、詞頻數(shù)、詞匯權(quán)重。后兩個(gè)指標(biāo),筆者已經(jīng)在前面做過(guò)論述,不明白的小伙伴可以“倒帶”回去看看。
2.3 Tone Analyzer
Tone Analyzer是一款由IBM推出的、基于云計(jì)算的人工智能文本分析工具,能對(duì)電子郵件、博客文章以及手機(jī)短信進(jìn)行感情色彩分析,以確定它的措辭是否如實(shí)地表達(dá)了你的憤怒、肯定、高興或者悲傷等感情。
ToneAnalyzer的主界面
這一用來(lái)幫助評(píng)估和改善文字溝通當(dāng)中的語(yǔ)氣的服務(wù)目前尚處實(shí)驗(yàn)?zāi)J?,如獲成功,或?qū)⒏淖兾磥?lái)商家和營(yíng)銷人員同消費(fèi)者、客戶的溝通方式。
更重要的是,它可以應(yīng)用到新媒體運(yùn)營(yíng)者的內(nèi)容校正中來(lái):
- 用來(lái)查驗(yàn)文章內(nèi)容的調(diào)性和風(fēng)格,了解自己的文字給人留下的印象如何,以使公眾號(hào)的內(nèi)容運(yùn)營(yíng)不偏離預(yù)設(shè)的定位。
- 幫助品牌運(yùn)營(yíng)者和內(nèi)容輸出分析,撰寫(xiě)何種風(fēng)格的文案才可以引起受眾的共鳴。
Tone?Analyzer的評(píng)價(jià)系統(tǒng)包含三個(gè)維度,各個(gè)維度及其簡(jiǎn)介如下圖所示:
Tone?Analyzer的評(píng)價(jià)系統(tǒng)的三個(gè)維度
以下是Tone?Analyzer的使用案例,大家可以從下面的幾個(gè)模塊中獲得對(duì)文字信息的洞察,這部分筆者不做詳述,感興趣的小伙伴可以去官網(wǎng)查閱文檔。
輸入文本信息和選擇分析類別
文本信息3個(gè)維度的分析結(jié)果
文本信息段落的逐行分析(附有標(biāo)記)
3?熱點(diǎn)捕獲/趨勢(shì)預(yù)測(cè)工具
3.1?搜索指數(shù)型
這里的搜索指數(shù)型趨勢(shì)工具指的是,它們的數(shù)據(jù)絕大部分是基于用戶的搜索行為,即用戶搜索關(guān)鍵詞而形成的數(shù)據(jù)及其展示,有一定的預(yù)測(cè)價(jià)值,但缺點(diǎn)是并不能發(fā)現(xiàn)搜索行為背后的原因。
3.1.1 百度指數(shù)
關(guān)于百度指數(shù)的介紹,筆者僅貼出部分官方關(guān)于功能的介紹:
百度指數(shù)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺(tái),它能夠告訴用戶:某個(gè)關(guān)鍵詞在百度的搜索規(guī)模有多大,一段時(shí)間內(nèi)的漲跌態(tài)勢(shì)以及相關(guān)的新聞?shì)浾撟兓?,關(guān)注這些詞的網(wǎng)民是什么樣的,分布在哪里,同時(shí)還搜了哪些相關(guān)的詞,幫助用戶優(yōu)化數(shù)字營(yíng)銷活動(dòng)方案。
關(guān)于詳細(xì)它的使用方法及一些關(guān)鍵原理,筆者在《尋找創(chuàng)業(yè)方向時(shí),如何零成本用大數(shù)據(jù)獲悉市場(chǎng)行情?》有詳述,感興趣的小伙伴可以去看看。
3.1.2 微指數(shù)
(微博)微指數(shù)是新浪微博官方的數(shù)據(jù)分析工具,基于新浪微博的全量數(shù)據(jù),通過(guò)關(guān)鍵詞的熱議度,以及行業(yè)/類別的平均影響力,來(lái)反映微博輿情或賬號(hào)的發(fā)展走勢(shì)。微指數(shù)分為熱詞趨勢(shì)、實(shí)時(shí)趨勢(shì)、(信息分布)地域解讀和(用戶)屬性分析4個(gè)板塊。
“熱詞趨勢(shì)”部分與百度指數(shù)的趨勢(shì)很相像,但它有一個(gè)更為有價(jià)值的地方—點(diǎn)擊趨勢(shì)曲線中的各個(gè)節(jié)點(diǎn),會(huì)顯示出關(guān)注度排名靠前的3條微博,可以做到“知其然并知其所以然”。
微指數(shù)的熱詞趨勢(shì)圖
“實(shí)時(shí)趨勢(shì)”則反映該熱詞近一天的走勢(shì)情況?!暗赜蚪庾x”即該熱詞相關(guān)微博信息的地域分布情況。
最后一個(gè)功能板塊是“屬性分析”,這部分能獲悉關(guān)注該熱詞及其相關(guān)事件的人群畫(huà)像,有性別、年齡、興趣標(biāo)簽比例和星座標(biāo)簽比例這4個(gè)人群屬性。
微指數(shù)的“(人群)屬性分析”
這部分可以參看筆者之前寫(xiě)的兩篇文章《當(dāng)數(shù)據(jù)分析遭遇心理動(dòng)力學(xué):用戶深層次的情感需求浮出水面》、《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營(yíng)的定位和內(nèi)容初始化?》,不失時(shí)機(jī)將其運(yùn)用到實(shí)際的運(yùn)營(yíng)工作中來(lái),而不是僅僅停留在人群屬性的分析描述層面。
3.2?現(xiàn)網(wǎng)信息型
現(xiàn)網(wǎng)信息型,顧名思義,就是該類工具的主要數(shù)據(jù)來(lái)源于現(xiàn)有的網(wǎng)絡(luò)信息(主要是基于社會(huì)化媒體的文本數(shù)據(jù),詳情請(qǐng)參看《干貨|如何利用Social Listening從社會(huì)化媒體中“提煉”有價(jià)值的信息?》),而不是基于網(wǎng)民的搜索行為,因而通過(guò)它可以找到熱詞或事件關(guān)注(量)發(fā)生波動(dòng)起伏的原因。
一般來(lái)說(shuō),這類數(shù)據(jù)產(chǎn)品的典型應(yīng)用領(lǐng)域在輿情領(lǐng)域(包括輿情監(jiān)測(cè)、品牌口碑監(jiān)測(cè)等),比如新浪微熱點(diǎn)(以前叫“新浪微輿情”)。
新浪微熱點(diǎn)的主頁(yè)
新浪微熱點(diǎn)—“熱度指數(shù)”產(chǎn)品頁(yè)面
以下是新浪微熱點(diǎn)這個(gè)大數(shù)據(jù)分析工具的介紹,我們能從中看到現(xiàn)網(wǎng)信息型熱度分析工具的基本原理:
“利用獨(dú)有的分布式網(wǎng)絡(luò)技術(shù),對(duì)互聯(lián)網(wǎng)上輿情、口碑相關(guān)數(shù)據(jù)源進(jìn)行完整采集,同時(shí)根據(jù)用戶預(yù)定的監(jiān)控關(guān)鍵詞對(duì)全網(wǎng)數(shù)據(jù)進(jìn)行補(bǔ)充獲取?!靶吕宋狳c(diǎn)”可以在很短時(shí)間內(nèi)收錄到國(guó)內(nèi)外重要網(wǎng)站、論壇、微博、微信公眾號(hào)、貼吧、博客等互聯(lián)網(wǎng)開(kāi)放平臺(tái)的相關(guān)信息,通過(guò)中文智能分詞、自然語(yǔ)言處理、正負(fù)面研判等大數(shù)據(jù)處理技術(shù)對(duì)收錄到的信息進(jìn)行處理并分析…
可以看出,現(xiàn)網(wǎng)信息型熱度分析工具的數(shù)據(jù)基于現(xiàn)有的全網(wǎng)信息搜集,并經(jīng)過(guò)自然語(yǔ)言處理等技術(shù)對(duì)文本信息進(jìn)行信息的“去粗取精”,從而有效把握事件的重要方面和影響因素?!?/p>
下面,筆者來(lái)詳述新浪微熱點(diǎn)的幾個(gè)很有價(jià)值的功能模塊—分別是熱度指數(shù)(包括熱度指數(shù)、傳播分析、口碑分析和微博情緒)、信息監(jiān)測(cè)、事件分析(包括全網(wǎng)事件分析和微博事件分析)和微博傳播效果分析,它們可以很好的運(yùn)用到新媒體領(lǐng)域,可以在熱點(diǎn)追蹤、內(nèi)容規(guī)劃、受眾畫(huà)像分析和營(yíng)銷分析方面給予運(yùn)營(yíng)者們以有益的指導(dǎo)。
3.2.1 (事件)熱度趨勢(shì)分析
在地震救援中,有一個(gè)概念叫做“黃金72小時(shí)”,它是地質(zhì)災(zāi)害發(fā)生后的黃金救援期。因?yàn)榫仍缯J(rèn)為,災(zāi)難發(fā)生之后存在一個(gè)“黃金72小時(shí)”,在此時(shí)間段內(nèi),災(zāi)民的存活率極高。
同樣,在新媒體內(nèi)容運(yùn)營(yíng)追蹤熱點(diǎn)事件方面,也存在類似的定律,能在最短的時(shí)間內(nèi),把握觀眾所關(guān)注事件的發(fā)展走向和輿論傾向,因勢(shì)利導(dǎo),就能成功的“借勢(shì)“。
新浪微熱點(diǎn)的(事件)熱度趨勢(shì)分析中有一個(gè)能反映事件關(guān)注度的一個(gè)數(shù)據(jù)指標(biāo)—熱度指數(shù),它的全稱是“網(wǎng)絡(luò)傳播熱度指數(shù)”,是指在從新聞媒體、微博、微信、客戶端、網(wǎng)站、論壇等互聯(lián)網(wǎng)平臺(tái)采集海量信息的基礎(chǔ)上,提取與指定事件、人物、品牌、地域等相關(guān)的信息,并對(duì)所提取的信息進(jìn)行標(biāo)準(zhǔn)化計(jì)算后得出的指數(shù)。
熱度指數(shù)能客觀反映事件、人物、品牌、地域等在互聯(lián)網(wǎng)上的受關(guān)注程度。熱度指數(shù)所呈現(xiàn)的數(shù)值為0~100,數(shù)值越大,表明其網(wǎng)絡(luò)受關(guān)注度越高。
下面舉個(gè)栗子,拿前不久廣受關(guān)注的“淘寶被列入惡名市場(chǎng)名單”事件作為分析對(duì)象,來(lái)看看(事件)熱度趨勢(shì)分析的各個(gè)功能模塊是如何運(yùn)用到新媒體運(yùn)營(yíng)領(lǐng)域的。
(1)熱度概況和熱度趨勢(shì)
從下圖的“指數(shù)概況”部分,我們可以看到,淘寶被列入惡名市場(chǎng)名單”在72小時(shí)內(nèi)(當(dāng)然也可以選擇24小時(shí)這個(gè)時(shí)間區(qū)間)的熱度同比增長(zhǎng)達(dá)到62315%,表明互聯(lián)網(wǎng)上關(guān)于該事件的媒體報(bào)道和公眾評(píng)論信息出現(xiàn)驟增的情形,且指數(shù)有將近6%的增幅,幅度不大結(jié)合這兩個(gè)指標(biāo)可以看出,在近72小時(shí)內(nèi)該事件很火熱,且熱度呈現(xiàn)穩(wěn)步增長(zhǎng)的趨勢(shì)。值得注意的是,這里的“同比”和“指數(shù)變化”是針對(duì)此次查詢的72小時(shí)區(qū)間和上一個(gè)72小時(shí)區(qū)間的數(shù)值進(jìn)行對(duì)比的。
在“熱度指數(shù)”部分,由時(shí)間軸和熱度指數(shù)軸構(gòu)成的折線圖反映了近72小時(shí)內(nèi)該事件熱度指數(shù)的變化趨勢(shì),這個(gè)折線圖的分析意義重大,能起到預(yù)測(cè)事件未來(lái)熱度走勢(shì)的神奇作用。
在分析熱度指數(shù)的折線圖的時(shí)候,要注意從微觀層面和宏觀層面上的把握。在微觀層面上,要特別注意折線圖中比較重要的節(jié)點(diǎn),特別是峰值節(jié)點(diǎn),它代表其對(duì)應(yīng)的時(shí)間點(diǎn)它的關(guān)注度較高,要注意發(fā)現(xiàn)事件爆發(fā)的時(shí)間規(guī)律;在宏觀層面上,要看整條折線的整體走向,是整體呈現(xiàn)上升趨勢(shì),還是呈現(xiàn)關(guān)注度的下降趨勢(shì),當(dāng)情況屬于前者時(shí),新媒體運(yùn)營(yíng)者們則可以繼續(xù)跟進(jìn)事件的發(fā)展,接著“借勢(shì)”和“跟風(fēng)”。
熱度概況及熱度趨勢(shì)分析
既然知道了事件熱度的峰值節(jié)點(diǎn)出現(xiàn)在哪個(gè)時(shí)間點(diǎn),這時(shí)我們肯定想了解這些時(shí)間區(qū)間內(nèi)事件關(guān)注度驟然上升的原因。還好,緊接著“熱度趨勢(shì)”,下方給出了其中最突出的峰值節(jié)點(diǎn)出現(xiàn)的原因,以重點(diǎn)信息聚類的方式呈現(xiàn)。
在下圖中,呈現(xiàn)的是12月23日 08時(shí),達(dá)到24的峰值時(shí)的重點(diǎn)信息聚類。給出了這些熱門(mén)文章的標(biāo)題和來(lái)源站點(diǎn),點(diǎn)擊標(biāo)題即可進(jìn)入相應(yīng)的網(wǎng)頁(yè),查看源信息。
最突出峰值節(jié)點(diǎn)的信息聚類
這里需要強(qiáng)調(diào)的是,對(duì)于最突出峰值節(jié)點(diǎn)的重點(diǎn)聚類信息的解讀十分重要,因?yàn)檫@些文章閱讀數(shù)高,抑或是轉(zhuǎn)發(fā)量高,在某種程度上表明了公眾對(duì)于這些信息的認(rèn)可度高,能代表一定的公眾輿論傾向。作為新媒體內(nèi)容運(yùn)營(yíng)者來(lái)說(shuō),引導(dǎo)公眾看法難度太大,不是人人都能做成意見(jiàn)領(lǐng)袖的,能因勢(shì)利導(dǎo)的輸出順應(yīng)公眾觀點(diǎn)的文章可能是上策。
(2)事件熱度信息的關(guān)鍵詞詞云
這里的關(guān)鍵詞云是由互聯(lián)網(wǎng)上各個(gè)渠道的海量信息進(jìn)行中文智能分詞和自然語(yǔ)言處理所得,濃縮了關(guān)于該事件的TOP60關(guān)鍵詞,能在一定程度上反映出事件的各個(gè)要素。
詞語(yǔ)的大小代表該詞出現(xiàn)次數(shù)的多寡,也表明了該關(guān)鍵詞對(duì)于事件的重要程度如何。在進(jìn)行內(nèi)容組織的時(shí)候,可以考慮這些詞頻數(shù)高詞匯所代表的方面,如在“淘寶列入惡名市場(chǎng)名單”這一事件中,除了“惡名市場(chǎng)”、“名單”這些出現(xiàn)在標(biāo)題之中的關(guān)鍵詞外,還有“加大力度”、“納入保護(hù)”、“知識(shí)產(chǎn)權(quán)”等關(guān)鍵詞表征的方面作為文章內(nèi)容的著力方向。
“淘寶列入惡名市場(chǎng)名單”事件的關(guān)鍵詞詞云
(3)事件熱度信息的來(lái)源類型
“信息來(lái)源”部分中,反映出了事件信息的來(lái)源占比情況,比重較大的部分是需要運(yùn)營(yíng)者重點(diǎn)關(guān)注的渠道。
“淘寶列入惡名市場(chǎng)名單”事件的信息在“微博”這一信息渠道中的比重最多,其次是“網(wǎng)站”、“新聞”、“客戶端”等,具體的數(shù)據(jù)為:微博(49.32%)、網(wǎng)站(27.73%)和新聞(10.13%)。
“淘寶列入惡名市場(chǎng)名單”事件的信息來(lái)源分布
針對(duì)微博信息量為何占據(jù)如此大的比重這個(gè)問(wèn)題,筆者找到了今年11月份新浪微博官方的一份關(guān)于微博UGC的數(shù)據(jù),頓時(shí)了然:
新浪微博2016年P(guān)GC、UGC幾項(xiàng)關(guān)鍵數(shù)據(jù)
新浪微輿情是新浪微博旗下的子公司,擁有全量的微博數(shù)據(jù),再加上騰訊微博的信息量,因而其他渠道的信息量比例會(huì)被微博這一渠道巨大的UGC內(nèi)容給稀釋掉,形成絕對(duì)信息量不小但看起來(lái)很少的效果。
(4)事件熱度信息的地域分布
(事件熱度信息的)地域分布反映的是搜索事件的全網(wǎng)信息量在全國(guó)各地的分布情況,這一點(diǎn)與百度指數(shù)的原理一樣。
?“淘寶列入惡名市場(chǎng)名單”事件的信息地域分布
從地域分布來(lái)看,與“淘寶列入惡名市場(chǎng)名單”相關(guān)的信息主要來(lái)源北京(3561條)、廣東(1139條)和上海(834條)。
(5)事件熱度信息的關(guān)聯(lián)詞分析
事件熱度信息的關(guān)聯(lián)詞分析,它是通過(guò)系統(tǒng)自動(dòng)運(yùn)算找出事件核心詞、并計(jì)算出與核心詞同時(shí)出現(xiàn)關(guān)聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關(guān)于“共現(xiàn)”的原理介紹,請(qǐng)看《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營(yíng)的定位和內(nèi)容初始化?》的第三部分)。
下圖中的關(guān)聯(lián)詞和弦圖和對(duì)應(yīng)關(guān)聯(lián)度數(shù)據(jù)表反映了該事件的關(guān)聯(lián)詞情況。
“淘寶列入惡名市場(chǎng)名單”的關(guān)聯(lián)詞分析
通過(guò)對(duì)與“淘寶列入惡名市場(chǎng)名單”相關(guān)的信息進(jìn)行分析后可看出,與其核心詞惡名市場(chǎng)關(guān)聯(lián)度最高的詞語(yǔ)為淘寶(100.00%)、美國(guó)(99.06%)和名單(97.19%)。
3.2.2 信息監(jiān)測(cè)
一直以來(lái),(輿情、口碑)信息監(jiān)測(cè)的主要用戶是政府、大型企業(yè)和專業(yè)新聞媒體,因而對(duì)應(yīng)的主要功能是傾聽(tīng)民意、監(jiān)測(cè)自身(也包含競(jìng)品)的品牌口碑及動(dòng)向,以及追蹤熱點(diǎn)事件走向等。此外,它可以通過(guò)各種預(yù)警設(shè)置,對(duì)關(guān)注事件產(chǎn)生的新信息進(jìn)行第一時(shí)間的提醒,以免運(yùn)營(yíng)者遺漏重要信息。
實(shí)際上,信息監(jiān)測(cè)可以用于新媒體領(lǐng)域,結(jié)合上面提及的“事件熱度趨勢(shì)分析”板塊,媒體運(yùn)營(yíng)者可以有效的追蹤熱點(diǎn)事件的最新進(jìn)展,做到不遺漏。
關(guān)于它的應(yīng)用場(chǎng)景,筆者目前想到2個(gè):
(1)文章轉(zhuǎn)載的全網(wǎng)監(jiān)測(cè)
筆者平時(shí)會(huì)寫(xiě)一些關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)運(yùn)營(yíng)的文章,發(fā)布在一些知名的互聯(lián)網(wǎng)平臺(tái)上,因此想監(jiān)測(cè)一下全網(wǎng)轉(zhuǎn)載的情況,比如筆者最近的一篇文章—《如何用數(shù)據(jù)分析,搞定新媒體運(yùn)營(yíng)的定位和內(nèi)容初始化?》,在“信息監(jiān)測(cè)”的監(jiān)測(cè)方案部分設(shè)置好關(guān)鍵詞后,選好時(shí)間區(qū)間,轉(zhuǎn)載的詳細(xì)情況和數(shù)據(jù)統(tǒng)計(jì)圖表盡收眼底:
文章轉(zhuǎn)載的信息列表
筆者文章轉(zhuǎn)載的各種信息反饋圖表
(2)關(guān)注信息的全網(wǎng)監(jiān)測(cè)
運(yùn)營(yíng)者可以在監(jiān)測(cè)方案中按設(shè)置指定的關(guān)鍵詞,定向的追蹤自己感興趣的事件、公司、品牌和資料等信息。
以下是筆者在學(xué)習(xí)數(shù)據(jù)分析時(shí),進(jìn)行的關(guān)鍵詞設(shè)置,多個(gè)零散詞匯通過(guò)邏輯運(yùn)算符形成了一個(gè)監(jiān)測(cè)方案,可以無(wú)遺漏的監(jiān)測(cè)自己關(guān)注的信息,同時(shí)系統(tǒng)也會(huì)過(guò)濾掉垃圾信息。
通過(guò)各種邏輯運(yùn)算符設(shè)置信息監(jiān)測(cè)的關(guān)鍵詞
設(shè)置好監(jiān)測(cè)方案以后,點(diǎn)擊“圖表分析”,即可看到如下圖所示的各種監(jiān)測(cè)方案信息量的可視化分析圖表。
監(jiān)測(cè)方案的信息量的走勢(shì)圖
監(jiān)測(cè)方案的信息量分布情況
監(jiān)測(cè)方案信息量的地理分布情況
再選擇“信息列表”項(xiàng),通過(guò)時(shí)間、地域、渠道等選項(xiàng)的篩選,我們就可以得到自己想要的信息了。此外點(diǎn)擊其中一條信息,即可進(jìn)入信息詳情頁(yè),如下圖所示:
監(jiān)測(cè)方案的信息列表
監(jiān)測(cè)信息的詳情頁(yè)
另外,這個(gè)功能模塊還有幾個(gè)功能,如下圖所示,篇幅有限,感興趣的小伙伴自己去試試吧。
“信息監(jiān)測(cè)”板塊的預(yù)警通知、監(jiān)測(cè)日?qǐng)?bào)和定向監(jiān)測(cè)功能
3.2.3 事件分析
事件分析(包括全網(wǎng)事件分析和微博事件分析)指的是,輸入近期事件或話題關(guān)鍵詞,系統(tǒng)自動(dòng)進(jìn)行深度挖掘和多重分析,記錄事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過(guò)程,分析輿情傳播路徑、關(guān)鍵詞云、發(fā)展態(tài)勢(shì)、受眾反饋和網(wǎng)民觀點(diǎn)分析。
關(guān)于它的實(shí)際使用攻略,筆者之前寫(xiě)過(guò)一篇文章詳細(xì)介紹過(guò),請(qǐng)參看《【數(shù)據(jù)運(yùn)營(yíng)】傅園慧和她的“洪荒之力”的大數(shù)據(jù)輿情分析》。
3.2.4 微博傳播效果分析
微博傳播效果分析通過(guò)分析單條轉(zhuǎn)發(fā)量/評(píng)論量大的的微博,從而得到關(guān)于該微博的傳播路徑、意見(jiàn)領(lǐng)袖、用戶畫(huà)像和微博營(yíng)銷傳播質(zhì)量等。
下面貼一張大圖讓大家感受下:
微博傳播分析的部分功能
限于篇幅,這部分筆者就不詳述了,請(qǐng)參看筆者之前的文章:《【數(shù)據(jù)運(yùn)營(yíng)】揭開(kāi)微博轉(zhuǎn)發(fā)傳播的規(guī)律:以“人民日?qǐng)?bào)”發(fā)布的G20文藝晚會(huì)微博為例》。
4?可視化工具
俗話說(shuō):“文不如字,字不如表,表不如圖”,一張富含信息量且外觀時(shí)尚靚麗的圖會(huì)給文章增色不少,會(huì)激起讀者的好奇心,不知不覺(jué)的去圖片中探尋信息,從而讓文章的可讀性大大增加,易于傳播。比如這張圖:
人人都是產(chǎn)品經(jīng)理網(wǎng)站“產(chǎn)品經(jīng)理”專欄所有文章標(biāo)題制成的詞云
怎么樣,想學(xué)了吧?
不急,這個(gè)其實(shí)很簡(jiǎn)單,下面我將以實(shí)例詳細(xì)的講解制作這張圖的步驟,即使是小白的你,也能做出這樣精美的個(gè)性化詞云。
4.1 個(gè)性化詞云制作
我把個(gè)性化詞云的制作分為3個(gè)步驟,即抓取數(shù)據(jù)、文本處理和詞云制作,詳見(jiàn)下圖:
個(gè)性化詞云制作的步驟
4.1.1 數(shù)據(jù)獲取
從本質(zhì)上講,詞云是反映某一特定主題的文本數(shù)據(jù)的可視化展示。比如,上面的喬幫主詞云反映的就是“產(chǎn)品經(jīng)理”專欄中較為熱門(mén)的關(guān)鍵詞/話題。所以,要制作一個(gè)“出彩”且有內(nèi)涵的自定義詞云,文本不能無(wú)規(guī)律,需要定向的獲取特定的文本數(shù)據(jù)。
筆者對(duì)前不久上映且廣受好評(píng)的電影《你的名字》頗感興趣,想分析一下這部電影的市場(chǎng)反響如何,先聊聊這部分?jǐn)?shù)據(jù)的獲取。
對(duì)于影片的分析,首選當(dāng)然是豆瓣電影,因?yàn)樗菄?guó)內(nèi)最具有參考價(jià)值的影評(píng)網(wǎng)站,從文本中能得到很有價(jià)值和有意思的信息。但考慮到文本數(shù)據(jù)獲取的難易程度,我先介紹如下3個(gè)數(shù)據(jù)獲取的方法:
(1)自己編寫(xiě)爬蟲(chóng),想要什么數(shù)據(jù)就去抓取什么數(shù)據(jù),既經(jīng)濟(jì)(用爬蟲(chóng)工具會(huì)花錢),又會(huì)增加“自己動(dòng)手,豐衣足食”的成就感,最重要的是,略施小計(jì)就可以躲避豆瓣的封IP機(jī)制。
用python編寫(xiě)爬蟲(chóng)抓取豆瓣影評(píng)數(shù)據(jù)
(2)利用集搜客這樣的爬蟲(chóng)軟件去抓取數(shù)據(jù),不需要編程技術(shù),且簡(jiǎn)單易上手,但是可能會(huì)被封IP。
(3)采用新浪微熱點(diǎn)這個(gè)大數(shù)據(jù)工具,因而不用豆瓣的評(píng)論數(shù)據(jù),在互聯(lián)網(wǎng)上進(jìn)行全網(wǎng)信息搜集,獲取有關(guān)該影片的熱門(mén)文章標(biāo)題作為分析的文本數(shù)據(jù),這種方法是三種中最為輕松簡(jiǎn)單的,而且獲取的是全網(wǎng)的數(shù)據(jù),大家可以有選擇性的選取自己需要的數(shù)據(jù),操作步驟如下圖所示:
用新浪微熱點(diǎn)獲取文本數(shù)據(jù)
因?yàn)樽罱鼘W(xué)了點(diǎn)Python,故筆者選擇了用Python編寫(xiě)爬蟲(chóng)來(lái)獲取了豆瓣這部分的影評(píng)數(shù)據(jù)。
獲取《你的名字》豆瓣電影的影評(píng)數(shù)據(jù)
抓取后的數(shù)據(jù)整理成如下表格:
保存到本地的《你的名字》豆瓣影評(píng)數(shù)據(jù)
接下來(lái),就是把文本數(shù)據(jù)單獨(dú)取下來(lái)咯,全選“評(píng)論內(nèi)容”這一列,把這些影評(píng)數(shù)據(jù)占到記事本上,作為接下來(lái)分析的“原材料”。
4.1.2 文本處理
一般情況下,文本數(shù)據(jù)的處理包含很多方面,如分詞、詞性標(biāo)注、詞頻統(tǒng)計(jì)、文本分類、情感分析、關(guān)鍵詞提取、文本摘要提取等。
在這里,制作詞云只需要考慮關(guān)鍵詞提取和詞頻統(tǒng)計(jì)這兩個(gè)板塊。
這里使用到的工具是前面提及的熱詞分析工具—文本挖掘工具。將《你的名字》豆瓣評(píng)論的文本部分粘貼到上圖中左邊的文本框中,再點(diǎn)擊右上方的“分析出圖”,系統(tǒng)顯示完成后,右邊的預(yù)設(shè)詞云會(huì)發(fā)生變化,此時(shí)點(diǎn)擊“導(dǎo)出”,即可得到詞頻的csv文件。
經(jīng)文本挖掘工具處理得到的詞頻csv文件
這里去除詞語(yǔ)和詞頻兩列,用來(lái)進(jìn)行接下來(lái)的詞云制作。
4.1.3 詞云制作
處理詞云,筆者用到的工具是Tagul(現(xiàn)更名為Wordart)。下面是它的的主頁(yè)展示:
Tagul主頁(yè)
(1)詞頻載入格式
在頁(yè)面左上方的“Words”處,就是加載詞語(yǔ)及詞頻的地方,這里需要注意一下它的載入格式。,如下表所示:
Tagul的詞頻載入格式
上表中,前兩列的“Word”和“Weight”就是剛才經(jīng)處理過(guò)的詞語(yǔ)和詞頻,Color一欄則是設(shè)置該詞語(yǔ)的顏色,這是個(gè)性化詞云中很關(guān)鍵的一個(gè)要素,會(huì)直接影響到最終的詞云呈現(xiàn)效果。這里可以不填寫(xiě),那么在形成詞云時(shí)默認(rèn)隨機(jī)生成顏色。如果要形成定制化的顏色,則需要設(shè)置采用16進(jìn)制的色值,以下是常用的顏色代碼表,即色值表。
常用的16進(jìn)制色值表
與此類似,字體也可選可不選,需要定制的話,則可進(jìn)行相應(yīng)的設(shè)置。
“Repeat”這項(xiàng)則表示該詞語(yǔ)是否會(huì)重復(fù)出現(xiàn),填寫(xiě)“0”,則表示不重復(fù),填寫(xiě)“1”,則表示重復(fù)。為了保持信息的精準(zhǔn)度,減少噪聲,一般選擇填寫(xiě)“0”。
后面的URL鏈接就忽略了,因?yàn)橛星懊娴脑O(shè)置,就不需要進(jìn)行網(wǎng)頁(yè)鏈接。
按照上述操作,出詞語(yǔ)和詞頻兩例外,筆者還定制了“Color”和“Repeat”這兩項(xiàng),結(jié)果顯示如下。
最終的詞語(yǔ)載入表
全選該表格的文字部分,將其粘貼到“Import Words”的文本框里,進(jìn)行保存。
(2)載入中文字體
因?yàn)門(mén)agul是老外做的一個(gè)在線詞云制作網(wǎng)站,所以Tagul不支持中文,這需要我們載入能支持中文顯示的字體,如下圖所示,筆者載入的是“You Yuan(幼圓)”字體。
載入中文字體
(3)處理背景圖片
加載了字體,可以說(shuō)這是個(gè)性化詞云制作的核心部分,詞云最終效果的美與不美就在此一舉。
值得注意的是,在載入圖片之前的圖片選取步驟時(shí),需要選擇背景和主題對(duì)比比較明顯的圖片。從接下來(lái)的圖片預(yù)處理過(guò)程中,你會(huì)發(fā)現(xiàn)這一點(diǎn)的重要性。
詞云自定義圖片的初始狀態(tài)
筆者選取的是《你的名字》最為標(biāo)志性的一張海報(bào),看起來(lái)很有感覺(jué):既有男女主角的形象,也交代了他們所處的生活環(huán)境,中間則是影片中重要的提條線索—彗星。這張圖初始狀態(tài)看似雜亂,不好處理,但仔細(xì)觀察,可以發(fā)現(xiàn)主體(男女主角)和背景(天空、城市和彗星)之間的對(duì)比度和色相差異還是很明顯的。在Tagul的“Custom Shape”的設(shè)置中可以進(jìn)一步處理背景和主體之間的對(duì)比度問(wèn)題。
在“Shapes”處載入圖片后,點(diǎn)擊上載成功后圖片的右下角“齒輪”,打開(kāi)圖片預(yù)處理。其中,“Threshold”處理景深,可以拉開(kāi)/縮小背景和主體之間的差異;“Edges”則是處理主體輪廓的銳度,可以調(diào)節(jié)圖片的清晰程度模糊程度。這里的要點(diǎn)是—淡化背景,清晰主體輪廓。
淡化背景,強(qiáng)化主體輪廓
好了,完成上面繁瑣的步驟之后,現(xiàn)在是見(jiàn)證奇跡的時(shí)刻了,點(diǎn)擊右上方大大的黑體字“Visualize”,待進(jìn)度條加載完畢后,即可得到如下的最終效果圖:
最終的詞云效果圖
4.2?網(wǎng)絡(luò)可視化利器— Gephi
Gephi是一款開(kāi)源免費(fèi)跨平臺(tái)基于JVM的復(fù)雜網(wǎng)絡(luò)分析軟件, 其主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),動(dòng)態(tài)和分層圖的交互可視化與探測(cè)開(kāi)源工具,下載地址為https://gephi.org/。網(wǎng)上目前比較權(quán)威的Gephi教程是在Udemy上的Ooof liu講解的《Gephi中文教程》,地址為https://www.udemy.com/gephi/,看完這個(gè)部分仍有饒有興趣的小伙伴可以去學(xué)習(xí)下。
下面是由Gephi制作的各種網(wǎng)絡(luò)圖,這些圖不僅包含了豐富的信息量,而且極富美感,在吸引眼球的同時(shí)還給予我們有意義的信息。
各種由Gephi制成的網(wǎng)絡(luò)圖
Gephi是一款信息數(shù)據(jù)可視化利器,它的一般應(yīng)用場(chǎng)景如下:
- 探索性數(shù)據(jù)分析
- 鏈接分析
- 語(yǔ)義網(wǎng)絡(luò)分析
- 社交網(wǎng)絡(luò)分析
- 生物網(wǎng)絡(luò)分析
以下簡(jiǎn)單介紹下它的使用方法。
在操作下面步驟之前,先去Gephi官網(wǎng)上下載最新版的0.9.1 version,這是免費(fèi)的,且支持中文,還有豐富的插件下載,這簡(jiǎn)直是數(shù)據(jù)可視化愛(ài)好者的福音!
值得注意的是,這款軟件是用Java編寫(xiě)的,所以需要安裝Java環(huán)境,這個(gè)有點(diǎn)磨人。演與演員的關(guān)系作為分析對(duì)象,來(lái)詳細(xì)解讀如何制作一個(gè)“秀外慧中”的社交網(wǎng)絡(luò)可視化圖譜。
4.2.1 制作源數(shù)據(jù)
Gephi的源數(shù)據(jù)可以在excel中完成。在excel中,僅輸入2列即可,表頭嚴(yán)格按照Gephi的格式來(lái)制作,第一列為“Source”,第二列為”Target”。下面以豆瓣上評(píng)分6以下的國(guó)內(nèi)電影的導(dǎo)演(選取的是張藝謀、陳凱歌、馮小剛等大家耳熟能詳?shù)膶?dǎo)演,演員隨之確定)和演員關(guān)系表為例,做成如下格式:
在Excel上編輯Gephi的源數(shù)據(jù)
做好源數(shù)據(jù)之后,記得保存為CSV格式,Gephi僅能讀取這種格式的數(shù)據(jù)。
4.2.2 導(dǎo)入數(shù)據(jù)
在導(dǎo)入數(shù)據(jù)時(shí),分別在“分隔符”、“如表格”、“格式”這三個(gè)選項(xiàng)下選擇“逗號(hào)”、“邊表格”、“GBK”。接下來(lái)點(diǎn)擊“下一步”,完成數(shù)據(jù)的導(dǎo)入。
在Gephi中導(dǎo)入csv數(shù)據(jù)
4.2.3 調(diào)整網(wǎng)絡(luò)布局
剛打開(kāi)“圖”,也就是網(wǎng)絡(luò)圖的圖形界面時(shí),這幾百個(gè)節(jié)點(diǎn)“蝸居”成一團(tuán),有點(diǎn)盤(pán)古開(kāi)天辟地前“渾沌如雞子”的感覺(jué),但這個(gè)模樣離我們心中的審美還有很長(zhǎng)一段距離呢。
初始狀態(tài)的網(wǎng)絡(luò)圖
不過(guò),不用著急,下面幾個(gè)簡(jiǎn)單的步驟就能讓它“脫胎換骨”,完成華麗的變身。
在左上方的“布局”欄目中,選擇其中的任一算法,并可以在下方的操作界面修改默認(rèn)算法參數(shù),也可使用默認(rèn)的參數(shù)。單擊圖中運(yùn)行按鈕,布局算法生效。
選擇“布局”中的算法
選擇不同的“布局”算法,網(wǎng)絡(luò)圖的形態(tài)就會(huì)有相應(yīng)的變化,以下是其中最為典型的集中算法及其拓?fù)鋱D。
各種“布局”算法的網(wǎng)絡(luò)圖拓?fù)湫螒B(tài)
在這里,筆者選取由“Frunchterman Reingold”算法確定的呈蒲公英花朵狀的結(jié)構(gòu)作為初始形態(tài)。
網(wǎng)絡(luò)布局做好后,我們完成了這個(gè)網(wǎng)絡(luò)圖的“骨架”搭建,下一步則需要對(duì)它的外表進(jìn)行修飾,包括節(jié)點(diǎn)、邊和背景等部分的美化。
4.2.4 美化
在這里,我們可以對(duì)網(wǎng)絡(luò)圖進(jìn)行“美容”,給它著上靚麗的顏色和合適的背景作為襯托。
如下圖所示,我們可以在“外觀”一欄對(duì)節(jié)點(diǎn)和邊進(jìn)行著色,然后在下方選擇合適的背景,要注意節(jié)點(diǎn)、邊和背景之間的色差和對(duì)比。
給節(jié)點(diǎn)、邊和背景選擇合適的顏色
還需要注意一點(diǎn),沿著“外觀”>“節(jié)點(diǎn)”>”數(shù)值設(shè)定”這一路徑,讓節(jié)點(diǎn)根據(jù)連接數(shù)的多少而顯示相應(yīng)的大小,使該網(wǎng)絡(luò)圖更有層次感;同理,可以對(duì)邊進(jìn)行類似的設(shè)定,則兩個(gè)聯(lián)系緊密的節(jié)點(diǎn)間的邊將變得更寬。
經(jīng)過(guò)調(diào)整后,可以得到如下的網(wǎng)絡(luò)圖。
顏色調(diào)整后的效果圖
4.2.5 顯示標(biāo)簽
經(jīng)過(guò)上述幾個(gè)操作步驟之后,網(wǎng)絡(luò)圖還需要加入最為重要的一項(xiàng)內(nèi)容—標(biāo)簽,也就是前面提及的導(dǎo)演及演員的姓名,反映在節(jié)點(diǎn)上,由此完成他們之間的社交網(wǎng)絡(luò)圖的基本繪制。
沿著“窗口”>“預(yù)覽設(shè)置”的路徑,打開(kāi)“預(yù)覽設(shè)置”,界面顯示如下。其中,需要在“節(jié)點(diǎn)標(biāo)簽”這部分完成字體的選擇,把默認(rèn)的西文字體變?yōu)橹形淖煮w。除此之外,此處還可以進(jìn)行邊框、字體大小、顏色、透明度等的設(shè)置。
在“預(yù)覽設(shè)置”中設(shè)置中文字體
完成上述選項(xiàng)后,還需要在軟件界面的下方,點(diǎn)擊一下左下角那個(gè)大大的“T”,則節(jié)點(diǎn)標(biāo)簽就會(huì)顯現(xiàn),旁邊也有些字體調(diào)節(jié)鈕,大家可以摸索下。
在“布局”中,選擇“標(biāo)簽調(diào)整”算法,得到下圖:
最終效果圖
圖中各個(gè)節(jié)點(diǎn)的字體隨節(jié)點(diǎn)的重要性(由度、連入度或連出度確定)而呈現(xiàn)出不同之大小。所以,大家先看文字,了解其中最為突出的一些演員和導(dǎo)演,其次在看他們之間的關(guān)系。
筆者比較懶,這個(gè)網(wǎng)絡(luò)圖其實(shí)還可以進(jìn)行更深入的優(yōu)化的,有興趣的小伙伴可以嘗試著做得更絢麗一些。
4.3?數(shù)據(jù)地圖
數(shù)據(jù)地圖,在Excel2013版及以上中都有三維地圖,還有一些BI工具中也集成了這個(gè)模塊,當(dāng)然也有專業(yè)的地圖GIS軟件,如地圖慧、智圖等。由于筆者之前寫(xiě)過(guò)一篇關(guān)于數(shù)據(jù)地圖如何運(yùn)用的文章,在此不再贅述,詳見(jiàn)《運(yùn)營(yíng)實(shí)操|15分鐘學(xué)會(huì)數(shù)據(jù)地圖分析》。
好了,上面的工具部分介紹完畢,該進(jìn)入最終的收尾階段了。在某種意義上講,上面介紹的若干工具都是為接下來(lái)的“數(shù)據(jù)新聞”部分做準(zhǔn)備—它們是數(shù)據(jù)新聞中不可獲取的一部分,是數(shù)據(jù)新聞內(nèi)容呈現(xiàn)的重要“武器”。
5?數(shù)據(jù)新聞
在正式介紹數(shù)據(jù)新聞之前,筆者先聊聊,為什么需要數(shù)據(jù)新聞這種新型的新聞報(bào)道方式。
這里,筆者引用美國(guó)Northwestern University人文與社科學(xué)院的Prof BrianKeegan的一段話作為注解:
“在當(dāng)代,對(duì)于信息過(guò)載,以及恐懼、不確定性和懷疑等情緒的焦慮氛圍下,數(shù)據(jù)驅(qū)動(dòng)的新聞可以起到關(guān)鍵性的作用。它們可以為關(guān)于政策、經(jīng)濟(jì)趨勢(shì)、社會(huì)變革的討論提供更為堅(jiān)實(shí)的經(jīng)驗(yàn)基礎(chǔ)?!?/p>
由此可見(jiàn),信息過(guò)載、信息失真和現(xiàn)實(shí)世界廣泛存在的不確定性,導(dǎo)致人們不再相信沒(méi)有充分依據(jù)的信息,因而數(shù)據(jù)新聞這種更有說(shuō)服力的信息載體呼之欲出。
5.1?數(shù)據(jù)新聞簡(jiǎn)介
數(shù)據(jù)新聞,又叫數(shù)據(jù)驅(qū)動(dòng)新聞。是指基于數(shù)據(jù)的抓取、挖掘、統(tǒng)計(jì)、分析和可視化呈現(xiàn)的新型新聞報(bào)道方式。它致力于從海量數(shù)據(jù)中發(fā)現(xiàn)新聞線索,或是抓取大量數(shù)據(jù)拓展既有新聞主題的廣度與深度,最后依靠可視化技術(shù)將經(jīng)過(guò)過(guò)濾后的數(shù)據(jù)進(jìn)行融合,以形象化、藝術(shù)化的方式加以呈現(xiàn),致力于為讀者提供客觀、系統(tǒng)的報(bào)道以及良好的閱讀體驗(yàn)。
目前,在大數(shù)據(jù)新聞制作上已經(jīng)積累了經(jīng)驗(yàn)的國(guó)際媒體有《衛(wèi)報(bào)》《紐約時(shí)報(bào)》《華盛頓郵報(bào)》等。
以下是常見(jiàn)的數(shù)據(jù)新聞呈現(xiàn)方式:
不同類型的數(shù)據(jù)新聞
需要注意的是,數(shù)據(jù)新聞不一定非得要復(fù)雜的數(shù)據(jù)來(lái)呈現(xiàn)事實(shí),表現(xiàn)出很高的逼格。在很多時(shí)候,簡(jiǎn)單的描述性數(shù)據(jù)即可,就像下面的一個(gè)示例一樣,數(shù)據(jù)圖表的呈現(xiàn)讓讀者更加清晰、直觀的了解到西藏班在“量”和“質(zhì)”上的變遷,是“綠葉”,而內(nèi)地西藏班的整個(gè)發(fā)展歷程才是真正的“紅花”,是該報(bào)道的主線。
一張圖讀懂“內(nèi)地西藏班”
5.2?數(shù)據(jù)新聞的形式
一般情況下,數(shù)據(jù)新聞?dòng)腥缦?種形式:
5.2.1 新聞敘事
數(shù)據(jù)新聞體系下的新聞敘事講求客觀理性和邏輯性,從數(shù)據(jù)視角來(lái)看待事件與社會(huì)話題的方方面面,加之以形象具體的可視化圖表作為最后的呈現(xiàn)方式,使讀者對(duì)內(nèi)容的真實(shí)性和價(jià)值性產(chǎn)生信任。
以下是標(biāo)題為《23萬(wàn)投票紀(jì)錄 回顧第五屆香港立法會(huì)》的數(shù)據(jù)新聞,下面選取了該文中一些具有代表性的數(shù)據(jù)圖示。
《23萬(wàn)投票紀(jì)錄 回顧第五屆香港立法會(huì)》數(shù)據(jù)新聞中的一些圖示
從上圖中,在運(yùn)用數(shù)據(jù)圖示的同時(shí),借助數(shù)據(jù)分析的方法,從多維度總結(jié)了議員的投票行為。這種基于數(shù)據(jù)的的表達(dá),比起單純的文字報(bào)道來(lái),表現(xiàn)清晰,說(shuō)服力強(qiáng)。
5.2.2 事實(shí)判斷
一個(gè)孤立的事件當(dāng)中的少量信息往往缺少關(guān)聯(lián)度,但如果從正確的角度觀察卻能發(fā)現(xiàn)極為重要的價(jià)值。透過(guò)數(shù)據(jù),內(nèi)容運(yùn)營(yíng)者可以發(fā)現(xiàn)僅憑知覺(jué)和傳聞難以感知的、隱藏在事件/新聞背后線索或假設(shè),抽絲剝繭、言之鑿鑿的把事件的來(lái)龍去脈和其中緣由講述透徹。
2016年7月25號(hào)在DT財(cái)經(jīng)上有一篇文章,文章標(biāo)題為《10萬(wàn)條掛號(hào)大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》,文章中全篇引用了掛號(hào)網(wǎng)各個(gè)維度的一手10W數(shù)據(jù)。采用循序漸進(jìn)的邏輯描述并分析看病難互聯(lián)網(wǎng)也很難解決這一難題。重要的是,作者將這些數(shù)據(jù)制作成可視化的數(shù)據(jù)圖表,從掛號(hào)網(wǎng)注冊(cè)醫(yī)院分布、支持網(wǎng)絡(luò)預(yù)約功能的醫(yī)院占比到預(yù)約掛號(hào)量超10萬(wàn)的醫(yī)院和人數(shù)分布情況,最后到患者參與分享的比例及對(duì)候診時(shí)間的滿意度分析,將這些數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)地圖、點(diǎn)狀圖、旋風(fēng)圖和趣味條形圖等可視化形式呈現(xiàn)出來(lái)。
《10萬(wàn)條掛號(hào)大數(shù)據(jù)顯示:互聯(lián)網(wǎng)也救不了看病難》中的可視化圖表
從這個(gè)例子可以看出,數(shù)據(jù)新聞的報(bào)道方式能夠在宏觀上對(duì)某個(gè)事件看得更加清楚與全面,事件復(fù)雜的演進(jìn)過(guò)程以及這個(gè)過(guò)程中的各個(gè)方面,都能描述得直觀且有趣,最重要的是,很能讓異見(jiàn)者服氣。
5.2.3 預(yù)測(cè)走向
通過(guò)數(shù)據(jù)的挖掘和分析,尋找出有價(jià)值的相關(guān)性,繼而增加對(duì)相關(guān)事件發(fā)展趨勢(shì)的預(yù)測(cè)性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報(bào)道,成為大數(shù)據(jù)時(shí)代的新聞業(yè)務(wù)發(fā)展方向。
下圖是CNN在今年7月份關(guān)于美國(guó)總統(tǒng)大選預(yù)測(cè)的數(shù)據(jù)新聞,全篇大篇幅的介紹了當(dāng)下美國(guó)社交媒體上各州對(duì)候選人的支持情況、通過(guò)復(fù)雜算法得出的候選人各州獲勝的概率以及哪個(gè)州對(duì)于總統(tǒng)選舉具有決定性意義等。
CNN在2016年7月份關(guān)于美國(guó)總統(tǒng)大選的預(yù)測(cè)(局部)
5.3?如何成為一個(gè)優(yōu)秀的數(shù)據(jù)新聞內(nèi)容運(yùn)營(yíng)者
數(shù)據(jù)新聞學(xué)是一門(mén)交叉的學(xué)科,數(shù)據(jù)新聞的產(chǎn)生給傳統(tǒng)的新聞工作者提出了挑戰(zhàn),傳統(tǒng)的新聞創(chuàng)作理念和方式,要求新聞工作者具備采寫(xiě)編評(píng)等基本專業(yè)技能,但目前已無(wú)法滿足大數(shù)據(jù)時(shí)代下數(shù)據(jù)新聞的創(chuàng)作。
要做好數(shù)據(jù)新聞,需要運(yùn)營(yíng)者著重提升以下4個(gè)方面的素養(yǎng)/能力:
5.3.1?敏銳的數(shù)據(jù)洞察力
數(shù)據(jù)新聞需要大量的數(shù)據(jù)、數(shù)據(jù)分析處理,不僅僅是要有技術(shù)水平,更需要一雙慧眼,分得清“真數(shù)據(jù)”和“假數(shù)據(jù)”,而且還要選擇重要的數(shù)據(jù)和信息進(jìn)行內(nèi)容輸出,為受眾提供更細(xì)致、精確的事件分析,又快又準(zhǔn)的報(bào)道新聞,數(shù)據(jù)新聞的把關(guān)在數(shù)據(jù)時(shí)代更為重要。
媒體工作者需多渠道的收集數(shù)據(jù)。從公開(kāi)的數(shù)據(jù)庫(kù)或者是政府部門(mén)、企業(yè)、機(jī)構(gòu)中獲取數(shù)據(jù),從這些海量信息中判斷和選擇有表現(xiàn)力的數(shù)據(jù)。當(dāng)媒體工作者獲取數(shù)據(jù)之后,便開(kāi)始處理和整合數(shù)據(jù)。將與新聞報(bào)道無(wú)關(guān)的數(shù)據(jù)篩選、過(guò)濾后,剩下有用的數(shù)據(jù)進(jìn)行整合匯編,形成新的報(bào)道內(nèi)容。
新聞工作者通過(guò)數(shù)據(jù)的挖掘和分析,尋找出有價(jià)值的相關(guān)性,繼而增加對(duì)相關(guān)事件發(fā)展趨勢(shì)的預(yù)測(cè)性,新聞和數(shù)據(jù)相結(jié)合創(chuàng)作出精確和深度報(bào)道,成為大數(shù)據(jù)時(shí)代的新聞業(yè)務(wù)發(fā)展方向。
5.3.2?熟練運(yùn)用計(jì)算機(jī)能力
在如今信息爆炸的大數(shù)據(jù)時(shí)代,特別是社交網(wǎng)絡(luò)、電子商務(wù)與移動(dòng)通信把人類社會(huì)帶入了一個(gè)以“PB”(1024TB)為單位的結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)信息的新時(shí)代。大量的數(shù)據(jù)和信息擺在新聞工作者面前,傳統(tǒng)的計(jì)算機(jī)無(wú)法處理大量的、無(wú)規(guī)律的數(shù)據(jù),需要云計(jì)算進(jìn)行分析、處理、統(tǒng)計(jì)。
因此,對(duì)于當(dāng)今的新聞工作者提出了更高的要求,必須熟練運(yùn)用計(jì)算機(jī),掌握一門(mén)編程語(yǔ)言。如果之前沒(méi)有編程基礎(chǔ),推薦python,它的設(shè)計(jì)哲學(xué)是“優(yōu)雅”、“明確”、“簡(jiǎn)單”,掌握一些常用的爬蟲(chóng)包、數(shù)據(jù)分析及可視化包以及自然語(yǔ)言處理包,就能很好的將大量的數(shù)據(jù)和信息進(jìn)行友好的呈現(xiàn)。
5.3.3?分析處理數(shù)據(jù)能力
數(shù)據(jù)新聞與傳統(tǒng)的文字圖片新聞不一樣,數(shù)據(jù)新聞需要大量的數(shù)據(jù),新聞工作者可以通過(guò)數(shù)據(jù)發(fā)現(xiàn)問(wèn)題、提出問(wèn)題,也可以先有了問(wèn)題之后,再去收集相關(guān)的數(shù)據(jù)。而擁有大量數(shù)據(jù)后,必須對(duì)其進(jìn)行分析和處理,將不需要或不相關(guān)的數(shù)據(jù)過(guò)濾掉,剩下有價(jià)值的數(shù)據(jù)加以分析整合,供新聞編輯使用。德勤在美國(guó)華盛頓特區(qū)的研發(fā)創(chuàng)新團(tuán)隊(duì)招聘數(shù)據(jù)記者,其中最重要的要求就是要具備分析數(shù)據(jù)的能力,由此可見(jiàn),數(shù)據(jù)新聞?dòng)浾弑仨毦邆漭^強(qiáng)的數(shù)據(jù)分析和處理的能力,才能勝任此工作。
5.3.4?可視化平面設(shè)計(jì)能力
數(shù)據(jù)新聞的可視化表達(dá)為新聞行業(yè)注入了一股新鮮的血液,讓數(shù)據(jù)新聞充滿希望與活力。數(shù)據(jù)新聞的可視化圖片將不同的時(shí)間和空間聯(lián)系在一起,將繁雜的數(shù)據(jù)簡(jiǎn)單化,便于受眾理解,更有利于受眾參與其中,滿足不同受眾的各方面需求。數(shù)據(jù)新聞的可視化是其一大特點(diǎn),因此對(duì)于新聞工作者來(lái)說(shuō),應(yīng)熟練掌握可視化技術(shù),學(xué)會(huì)識(shí)圖制圖以及各種表格的制作。
最后,筆者介紹一個(gè)數(shù)據(jù)新聞的資料庫(kù),在這里小伙伴們可以看到國(guó)內(nèi)外許多優(yōu)秀的數(shù)據(jù)新聞案例,要做優(yōu)秀的數(shù)據(jù)新聞制作者,首先從模仿學(xué)習(xí)做起。
新華網(wǎng)數(shù)據(jù)新聞信息庫(kù)鏈接地址:http://djchina.org/showcase/
好了,看到這里的小伙伴,我?guī)缀蹩梢詳喽ㄊ钦鎼?ài)了,希望你們能掌握好這些“工具”,成為運(yùn)營(yíng)領(lǐng)域的“增長(zhǎng)黑客”,不必羨慕什么“技術(shù)流”,因?yàn)閯?chuàng)造性思維和強(qiáng)烈的好奇心會(huì)給你帶來(lái)好運(yùn)的,等到工具、技能和思維三者融會(huì)貫通的時(shí)候,就會(huì)像獨(dú)孤求敗那樣:
“不滯於物,飛花草木皆可傷人,草木竹石均可為劍”!
參考資料
- 范冰,《增長(zhǎng)黑客》
- 新浪微熱點(diǎn)官網(wǎng)官方介紹
- NLPIR在線系統(tǒng)官方介紹
- IBM Watson?Tone?Analyzer官方文檔
- 百度百科“數(shù)據(jù)新聞”詞條
- CNN在2016.07美國(guó)總統(tǒng)大選預(yù)測(cè)網(wǎng)站
- FT數(shù)據(jù)新聞網(wǎng)
#專欄作家#
蘇格蘭折耳喵,微信公眾號(hào):運(yùn)營(yíng)喵是怎樣煉成的,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛(ài)好者,擅長(zhǎng)數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
看了兩遍,真贊??!
先收藏 再看看
有適合新手的嗎,看不太懂
牛逼的不行
文本挖掘工具的鏈接不對(duì) ??
你得登錄
老哥,牛逼了,瘋狂為你打電話啊
??
數(shù)碼寶貝里的不叫小精靈……
是不叫這個(gè),這是我叫的,準(zhǔn)確的來(lái)說(shuō),應(yīng)該打上雙引號(hào)。哈哈哈
感謝分享
是我是我還是我,居然看到快10點(diǎn)了。給大佬獻(xiàn)上我的膝蓋 ??
勤奮好學(xué),終有所成~為你點(diǎn)個(gè)贊??
感謝分享
感謝分享,邊看邊操作的,成功做出來(lái)了詞云,還有好多內(nèi)容不會(huì),慢慢吸收
練中學(xué),干中會(huì),設(shè)這個(gè)理兒! ??
收集的真全,再給你推薦個(gè) DataExa
這個(gè)產(chǎn)品太貴且申請(qǐng)麻煩,我分享的都是觸手可及或是免費(fèi)的工具。
牛逼的不要不要的
好難吸收! ?
邊看邊操作,慢慢會(huì)吸收的
寫(xiě)的不錯(cuò) ??
太有收獲了,厲害呀前輩,膜拜
喵~! ?? 很不錯(cuò)哦。
沒(méi)有比工具更干貨的東西
嗯,工具是手和大腦的延伸,能干很多我們干不了的事情
厲害了,還有個(gè)工具Tableau,做可視化很不錯(cuò)的
那是BI了,要花銀子的
好的
不是在這里獲取嗎??
清晰文檔
我對(duì)新浪微輿情熱點(diǎn)趨勢(shì)預(yù)測(cè)那塊很感興趣,試了下,果然像喵哥說(shuō)的那樣,能研判事件的走向,牛?。。?/p>
靈活運(yùn)用工具很重要,我說(shuō)的這些用法官方說(shuō)明里可沒(méi)有哦 ??
圖悅之前有用過(guò),當(dāng)時(shí)覺(jué)得有局限性且詞云效果不好,不夠美觀,所以棄了;百度指數(shù)倒是經(jīng)常使用,可以看到關(guān)鍵詞的搜索規(guī)模情況及漲跌態(tài)勢(shì),不過(guò)樓主介紹的新浪微輿情的最突出的峰值節(jié)點(diǎn)的重點(diǎn)信息聚類不錯(cuò);其實(shí)新浪微輿情我也一直有在用它的信息監(jiān)測(cè)還有事件分析功能,感覺(jué)非常好用,比較專業(yè),其他功能后面陸續(xù)還會(huì)試用。總之,拜讀完文章受益匪淺,小工具都非常實(shí)用,樓主辛苦了,感謝!
能幫到大家,吾心足矣! ??
微輿情的這個(gè)趨勢(shì)預(yù)測(cè)功能真的蠻強(qiáng)大的,對(duì)于新媒體運(yùn)營(yíng)很有幫助。
工具是死的,人是活的,會(huì)用就能發(fā)揮出奇效 ??
??
??