干貨|作為一個合格的“增長黑客”,你還得重視外部數(shù)據(jù)的分析!
在本文中,作者引出了“外部數(shù)據(jù)”這一概念,并實例分析,如何從海量的外部數(shù)據(jù)中獲取可以對自身業(yè)務(wù)起到指導(dǎo)作用和借鑒意義的insight,并借助外部環(huán)境數(shù)據(jù)來優(yōu)化自己。
現(xiàn)在互聯(lián)網(wǎng)上關(guān)于“增長黑客”的概念很火,它那“四兩撥千斤”、“小投入大收益”的神奇法力令無數(shù)互聯(lián)網(wǎng)從業(yè)者為之著迷。一般來說,“增長黑客”主要依賴于企業(yè)的內(nèi)部數(shù)據(jù)(如企業(yè)自身擁有的銷售數(shù)據(jù)、用戶數(shù)據(jù)、頁面瀏覽數(shù)據(jù)等),以此為依據(jù)進行數(shù)據(jù)分析和推廣策略擬定。但是,如果遇到如下幾種情況,“增長黑客”就捉襟見肘了:
- 假如一家初創(chuàng)公司,自己剛起步,自身并沒有還積累數(shù)據(jù),怎么破?
- 就算有數(shù)據(jù),但自己擁有的數(shù)據(jù)無論在“質(zhì)”和“量”上都很差,正所謂“garbage in ,garbage out”,這樣的數(shù)據(jù)再怎么分析和挖掘,也難以得到可作為決策依據(jù)的數(shù)據(jù)洞察……
- 能看到數(shù)量上的變化趨勢,卻無法精準(zhǔn)的獲悉數(shù)值變動的真正原因,比如,近期APP上的活躍度下降不少,從內(nèi)部數(shù)據(jù)上,你只能看到數(shù)量上的減少,但對于用戶活躍度下降的真實動因卻無法準(zhǔn)確判定,只能拍腦袋或者利用過時的經(jīng)驗,無法讓相關(guān)人信服。
由此,筆者引出了“外部數(shù)據(jù)”這一概念,尤其是“Open Data”這片“數(shù)據(jù)藍(lán)?!?,“他山之石,可以攻玉”,從海量的外部數(shù)據(jù)中獲取可以對自身業(yè)務(wù)起到指導(dǎo)作用和借鑒意義的insight,借助外部環(huán)境數(shù)據(jù)來優(yōu)化運營和產(chǎn)品設(shè)計。
下圖是本文的行文脈絡(luò):
在談及外部數(shù)據(jù)的重要性之前,讓我們先簡單的看一看數(shù)據(jù)分析的四種類型。
1. 四種常見的數(shù)據(jù)分析類型
按數(shù)據(jù)分析對于決策的價值高低和處理分析復(fù)雜程度,可將數(shù)據(jù)分析歸為如下圖所示的4種范式:
從上圖可以看到,越遠(yuǎn)離坐標(biāo)原點,沿坐標(biāo)軸正向延伸,價值度就越高,分析處理的難度也就越大。對于數(shù)據(jù)分析師而言,“描述型分析”、“診斷型分析”和“預(yù)測型分析”最為常見,而“規(guī)范型分析”涉及比較高深的數(shù)據(jù)挖掘和機器學(xué)習(xí)知識,不是我們接下來討論的重點。
1.1 描述型數(shù)據(jù)分析
描述型分析是用來概括、表述事物整體狀況以及事物間關(guān)聯(lián)、類屬關(guān)系的統(tǒng)計方法,是上述四類中最為常見的數(shù)據(jù)分析類型。通過統(tǒng)計處理可以簡潔地用幾個統(tǒng)計值來表示一組數(shù)據(jù)地集中性(如平均值、中位數(shù)和眾數(shù)等)和離散型(反映數(shù)據(jù)的波動性大小,如方差、標(biāo)準(zhǔn)差等)。
1.2 診斷型數(shù)據(jù)分析
在描述型分析的基礎(chǔ)上,數(shù)據(jù)分析師需要進一步的鉆取和深入,細(xì)分到特定的時間維度和空間維度,依據(jù)數(shù)據(jù)的淺層表現(xiàn)和自身的歷史累積經(jīng)驗來判斷現(xiàn)象/問題出現(xiàn)的原因。
1.3 預(yù)測型數(shù)據(jù)分析
預(yù)測型數(shù)據(jù)分析利用各種高級統(tǒng)計學(xué)技術(shù),包括利用預(yù)測模型,機器學(xué)習(xí),數(shù)據(jù)挖掘等技術(shù)來分析當(dāng)前和歷史的數(shù)據(jù),從而對未來或其他不確定的事件進行預(yù)測。
1.4 規(guī)范型數(shù)據(jù)分析
最具價值和處理復(fù)雜度的當(dāng)屬規(guī)范型分析。
規(guī)范型分析通過 “已經(jīng)發(fā)生什么”、“為什么發(fā)生”和“什么將發(fā)生”,也就是綜合運用上述提及的描述型分析、診斷型分析和預(yù)測型分析,對潛在用戶進行商品/服務(wù)推薦和決策支持。
2. 對外部數(shù)據(jù)中的分析很重要
經(jīng)過上面對四種數(shù)據(jù)分析類型的描述,筆者認(rèn)為現(xiàn)有的基于企業(yè)內(nèi)部數(shù)據(jù)的數(shù)據(jù)分析實踐存在如下幾類特征:
- 大多數(shù)的數(shù)據(jù)分析僅停留在描述性數(shù)據(jù)分析上,未觸及數(shù)據(jù)深層次的規(guī)律,沒有最大限度的挖掘數(shù)據(jù)的潛在價值;
- 數(shù)據(jù)分析的對象以結(jié)構(gòu)化的數(shù)值型數(shù)據(jù)為主,而對非結(jié)構(gòu)化數(shù)據(jù),尤其是文本類型的數(shù)據(jù)分析實踐則較少;
- 對內(nèi)部數(shù)據(jù)高度重視,如用戶增長數(shù)據(jù),銷售數(shù)據(jù),以及產(chǎn)品相關(guān)指標(biāo)數(shù)據(jù)等,但沒有和外部數(shù)據(jù)進行關(guān)聯(lián),導(dǎo)致分析的結(jié)果片面、孤立和失真,起不到問題診斷和決策支撐作用。
由此,我們必須對企業(yè)之外的外部數(shù)據(jù)引起重視,尤其是外部數(shù)據(jù)中的非結(jié)構(gòu)化文本數(shù)據(jù)。
對于文本數(shù)據(jù)的重要性,筆者已在之前的文章中有過詳細(xì)的論述,詳情請參看《數(shù)據(jù)運營|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>。與此同時,非結(jié)構(gòu)化的文本數(shù)據(jù)廣泛存在于社會化媒體之中,關(guān)于社會化媒體的相關(guān)介紹,請參看《干貨|如何利用Social Listening從社會化媒體中“提煉”有價值的信息?》。
3. 外部數(shù)據(jù)的幾種常見類型
外部數(shù)據(jù)是互聯(lián)網(wǎng)時代的產(chǎn)物,隨著移動互聯(lián)時代的興起,外部數(shù)據(jù)的增長呈現(xiàn)井噴的趨勢。各個領(lǐng)域的外部數(shù)據(jù)從不同角度刻畫了移動互聯(lián)時代的商業(yè)社會,綜合這些外部數(shù)據(jù),才能俯瞰到一個“全息式”的互聯(lián)網(wǎng)版圖。
按互聯(lián)網(wǎng)行業(yè)和領(lǐng)域的不同,外部數(shù)據(jù)包括且不限于:
- 阿里(淘寶和天貓):電商大數(shù)據(jù)
- 騰訊(微信和QQ):社交網(wǎng)絡(luò)大數(shù)據(jù)
- 新浪(新浪微博和新浪博客):社交媒體大數(shù)據(jù)
- 脈脈:職場社交大數(shù)據(jù)
- 谷歌/百度:搜索大數(shù)據(jù)
- 優(yōu)酷:影視播放大數(shù)據(jù)
- 今日頭條:閱讀興趣大數(shù)據(jù)
- 酷云EYE:收視大數(shù)據(jù)
- 高德地圖:POI大數(shù)據(jù)
4. 外部數(shù)據(jù)的獲取/采集
隨著互聯(lián)網(wǎng)時代對于“Open Data(開放數(shù)據(jù))”或“Data Sharing(共享數(shù)據(jù))”的日益倡導(dǎo),很多互聯(lián)網(wǎng)巨頭(部分)開放了它們所積累的外部數(shù)據(jù);再者一些可以抓取網(wǎng)絡(luò)數(shù)據(jù)的第三方應(yīng)用和編程工具不斷出現(xiàn),使得我們可以以免費或付費的方式獲得大量外部數(shù)據(jù)(在獲得對方允許和涉及商業(yè)目的的情況下),最終的形式包括未加工的原始數(shù)據(jù)、系統(tǒng)化的數(shù)據(jù)產(chǎn)品和定制化的數(shù)據(jù)服務(wù)。
以下是一些常見的外部數(shù)據(jù)分析和采集工具:
4.1 指數(shù)查詢
(1)百度指數(shù)
(2)微指數(shù)
(3)優(yōu)酷指數(shù)
(4)谷歌趨勢
4.2 爬蟲工具
(1)火車頭
(2)Data Scraping
(3)八爪魚
5. 外部數(shù)據(jù)分析的應(yīng)用場景
最先對外部數(shù)據(jù)高度重視的先行者其實是政府機構(gòu),它們利用大數(shù)據(jù)輿情系統(tǒng)進行網(wǎng)絡(luò)輿情的監(jiān)測,但隨著大數(shù)據(jù)時代的向前推進,外部數(shù)據(jù)的應(yīng)用場景也越來越多,包括且不限如下方面:
- 輿情監(jiān)測
- 企業(yè)口碑和客戶滿意度追蹤
- 企業(yè)競爭情報分析
- 品牌宣傳、廣告投放及危機公關(guān)
- 市場機會挖掘、產(chǎn)品技術(shù)開發(fā)創(chuàng)意挖掘
- 行業(yè)趨勢分析
接下來,筆者將以知名互聯(lián)網(wǎng)社區(qū)——“人人都是產(chǎn)品經(jīng)理”上近6年的文章數(shù)據(jù)作為實例,進行“360度無側(cè)漏式”的數(shù)據(jù)分析,來“示范”下如何對外部數(shù)據(jù)進行挖掘,從中最大限度的“榨取”關(guān)于互聯(lián)網(wǎng)產(chǎn)品、運營方面的insight。
6. 外部數(shù)據(jù)分析實操:以“人人都是產(chǎn)品經(jīng)理”上的文章數(shù)據(jù)分析為例
“人人都是產(chǎn)品經(jīng)理”社區(qū)創(chuàng)建于2010年,是一個產(chǎn)品經(jīng)理學(xué)習(xí)、交流、分享的社會化媒體平臺,每天都有更新關(guān)于互聯(lián)網(wǎng)產(chǎn)品、設(shè)計、運營等的資訊和文章,由此吸聚了大量的具有互聯(lián)網(wǎng)背景的讀者。據(jù)官方宣稱,截至2015年,社區(qū)共擁有300萬忠實粉絲。
因此,“人人都是產(chǎn)品經(jīng)理”在互聯(lián)網(wǎng)界具有廣泛的影響力,是國內(nèi)互聯(lián)網(wǎng)發(fā)展的一面鏡子,分析它上面的文章數(shù)據(jù)可以達(dá)到見微知著、管中窺豹的效果,從中可以發(fā)掘互聯(lián)網(wǎng)界的歷史變遷和發(fā)展現(xiàn)狀,進而展望互聯(lián)網(wǎng)行業(yè)“將發(fā)未發(fā)”的熱點和前進方向。
在筆者下面的“數(shù)據(jù)發(fā)現(xiàn)之旅”中,會帶著3個目的,主要是:
- 通過該社區(qū)的資訊文章中,發(fā)掘國內(nèi)互聯(lián)網(wǎng)發(fā)展的一些特征;
- 發(fā)掘互聯(lián)網(wǎng)某些欄目下的熱點及其變動趨勢;
- 給筆者的內(nèi)容創(chuàng)作予以寫作風(fēng)格定位和題材選取方面的指導(dǎo)。
以下是筆者抓取的數(shù)據(jù)的原始形態(tài),抓取了“標(biāo)題”、“時間”、“正文”、“閱讀量”、“評論量”、“收藏量”和“作者”這7個維度的數(shù)據(jù),抓取時間區(qū)間是2012.05.17~2017.07.31,文章數(shù)據(jù)共計33,412條。
然后,筆者對數(shù)據(jù)進行了清洗,主要是“閱讀量”,將“k(1000)“、“萬(10000)”、“m(1000000)”變成了相應(yīng)的數(shù)字,便于后續(xù)的數(shù)值計算和排序。同時,新增3個維度,即文章所屬的欄目“類別”、“正文字?jǐn)?shù)”和“標(biāo)題字?jǐn)?shù)”。
6.1全局縱覽
6.1.1 各欄目下的文章數(shù)量分布情況
首先,先對各個欄目下的文章數(shù)量進行基礎(chǔ)性的描述性分析,看看10個欄目類別下的文章數(shù)量分布。
從上面的條狀圖和環(huán)形圖可以看出,“業(yè)界動態(tài)”這一欄目下的文章數(shù)量最多,為10,452篇,占到了文章篇數(shù)總量的31.3%,其次是產(chǎn)品設(shè)計和產(chǎn)品運營,分別占到了總數(shù)的19.5%和16.87%,反倒是“產(chǎn)品經(jīng)理”下的文章數(shù)量不多。
接下來,筆者統(tǒng)計了這10各欄目在過去的6年中的數(shù)量變化情況,如下面的熱力圖所示:
上面的熱力圖中,色塊越深,對應(yīng)的數(shù)值就越大,越淺則數(shù)值愈小。其中,互聯(lián)網(wǎng)的“業(yè)界動態(tài)”一直是文章發(fā)布數(shù)量最多的欄目。而“產(chǎn)品經(jīng)理”的發(fā)文數(shù)量一路飆升(當(dāng)然2017年還沒過完),間接地可知該職位的熱度(關(guān)注和寫作偏好)蹭蹭的往上竄,成為“改變世界”、拿著高薪的產(chǎn)品經(jīng)理,是無數(shù)互聯(lián)網(wǎng)從業(yè)人員夢寐以求的工作。與此類似的是“產(chǎn)品運營”欄目,發(fā)文數(shù)量也在穩(wěn)步上升。
另外,“產(chǎn)品設(shè)計”方面的文章主要集中在2012年,可以看出以“用戶體驗”、“UI設(shè)計”、“信息架構(gòu)”和“需求規(guī)劃”為主要活動的產(chǎn)品設(shè)計在2012年蓬勃發(fā)展,產(chǎn)生了大量基于實踐經(jīng)驗的干貨文章。
6.1.2 閱讀數(shù)據(jù)分析
現(xiàn)在,筆者從“閱讀量”、“點贊量”、“收藏量”、“正文字?jǐn)?shù)”和“標(biāo)題字?jǐn)?shù)”這些能反映讀者閱讀偏好的數(shù)據(jù)著手,進行由淺入深的挖掘,從中發(fā)現(xiàn)閱讀數(shù)據(jù)中的洞察。
在統(tǒng)計分析之前,先去掉若干有缺失值的數(shù)據(jù),此時文本數(shù)據(jù)總量為33,394。
(1)文章數(shù)據(jù)的描述性分析
先對所有文章的各個維度進行描述性統(tǒng)計分析,獲得這些數(shù)據(jù)的“初の印象”。
上面的數(shù)據(jù)過多,為節(jié)省篇幅,筆者僅摘取部分?jǐn)?shù)據(jù)進行解讀:
- 從上表中,筆者發(fā)現(xiàn),單篇文章閱讀量的最大值是2,100,000!閱讀數(shù)高得驚人!在后面的截圖中,小伙伴們可以知曉具體是哪一篇文章如此之高的閱讀熱度。
- 讀者的評論熱情不高,絕大部分的文章沒有評論,這可以從“平均值”、“中位數(shù)”和“標(biāo)準(zhǔn)差”這3項指標(biāo)中看出。
- 絕大部分的文章字?jǐn)?shù)不超過3000,篇幅短小精悍,當(dāng)然大多數(shù)文章都有配圖,寫得太長,讀者懶得看。
- 絕大部分的標(biāo)題字?jǐn)?shù)不超過20字,太短說不清楚,太長看著招人煩。
(2)文章聚類分析
在該部分,筆者選取 “閱讀量”、“收藏量”、“評論量”、“標(biāo)題字?jǐn)?shù)”這4個維度作為此次聚類分析的特征(Feature),它們共同構(gòu)造了一個四維空間,每一篇文章因其在這4個維度上的數(shù)值不同,在四維空間中形成一個個的點。
以下是由DBSCAN自動聚類形成的圖像,因4維空間難以在現(xiàn)實中呈現(xiàn),故以2維的形式進行展示。
從上圖可以看出,此次聚類中,有少數(shù)的異常點,由上面的描述型分析可知,閱讀量極大的那幾篇文章的“嫌疑”最大,現(xiàn)在在源數(shù)據(jù)中“揪出”它們,游街示眾,然后再“除掉”。
去除掉上述異常點之后的聚類圖譜:
從上圖中可以看出,雖然因為維度過高,不同類別簇群存在重合現(xiàn)象,但不同的顏色明顯的將文章類別進行了區(qū)分,按照“閱讀量”、“收藏量”、“評論量”、“標(biāo)題字?jǐn)?shù)”這4個維度進行的DBSCAN聚類可以分為5個類別。
(3) 閱讀量與正文字?jǐn)?shù)、標(biāo)題字?jǐn)?shù)之間的關(guān)聯(lián)分析
接著,筆者分別對“閱讀量”與“標(biāo)題字?jǐn)?shù)”、“正文字?jǐn)?shù)”做了散點圖分析,以期判斷它們之間是否存在相關(guān)關(guān)系。
從上圖來看,閱讀量和標(biāo)題字?jǐn)?shù)之間并沒有明顯的線性相關(guān)性,標(biāo)題字?jǐn)?shù)及其對應(yīng)數(shù)量的散點分布,近似形成了一條左偏態(tài)的正態(tài)曲線,從圖像上印證了上面的描述性分析,而且更新了我們的認(rèn)知:在10~30這個“標(biāo)題字?jǐn)?shù)”區(qū)間的文章數(shù)量最多,而標(biāo)題字?jǐn)?shù)過多未必是好事。
從上圖可以看出,從1000字開始,閱讀量和正文字?jǐn)?shù)在大體上呈負(fù)相關(guān)關(guān)系,即文章字?jǐn)?shù)越多,閱讀量越小。由此看來,大家都比較喜歡短平快的“快餐式”閱讀,篇幅太長的文章看起來太磨人。
6.1.3 熱門文章特征分析
一篇文章的“收藏量”能在一定程度上反映讀者對該文章的價值度的認(rèn)可,較高的收藏量能代表該文章的質(zhì)量屬于上乘。而從一定數(shù)量的高收藏量文章中,我們又能間接的從中發(fā)掘出讀者的閱讀偏好,進而界定讀者群體的某些特征。
在這部分,筆者篩選出收藏量大于1,000的文章,各欄目合計下來,不多不少,剛好60篇。以下是它們在各欄目下的數(shù)量分布情況:
從上表中,筆者發(fā)現(xiàn)如下信息:
- “產(chǎn)品經(jīng)理”欄目下收藏量過1,000的文章數(shù)量最多,占到半數(shù);
- “分析評測”下的文章數(shù)量不多,但讀者互動最多(平均評論量為90);
- “分析評測”、“交互體驗”、“業(yè)界動態(tài)”、“原型設(shè)計”入圍的文章數(shù)量不多,但它們的平均閱讀量較高
以上3點僅是從數(shù)值型數(shù)據(jù)上獲得的認(rèn)知,但是這些熱門文章到底有哪些特征,我們不得而知。由此,筆者統(tǒng)計了這些熱門文章的標(biāo)題中的高頻詞,并將其制成關(guān)鍵詞云:
從上面的高頻詞,“Axure”、“干貨”、“工具”、“新人”、“7天”、“速成”等高頻詞可以間接的推測出,這些文章的主要面向初學(xué)者(按照心理學(xué)上的“投射原理”,讀者其實也大都是初學(xué)者),以干貨類、工具類和方法論為主題,并透露出濃厚的“成功學(xué)氣息”(如“速成”、“7天”、“必學(xué)”等詞),具有這類標(biāo)題特征的文章,堪稱“眼球收割機”,初學(xué)者和小白們喜聞樂見,最是喜歡。
6.1.4 文本中一線~五線城市提及次數(shù)的地理分布
在該部分,筆者先列出了一個國內(nèi)一、二、三、四、五線城市的城市名錄,然后在經(jīng)過分詞處理的333,94篇文本數(shù)據(jù)中統(tǒng)計這些城市的提及次數(shù)(不包含簡稱和別稱),最后制成一張反映城市提及次數(shù)的地理分布地圖,進而間接地了解各個城市互聯(lián)網(wǎng)的發(fā)展?fàn)顩r(一般城市的提及跟互聯(lián)網(wǎng)產(chǎn)業(yè)、產(chǎn)品和職位信息掛鉤,能在一定程度上反映該城市互聯(lián)網(wǎng)行業(yè)的發(fā)展態(tài)勢)。
經(jīng)處理,制成的數(shù)據(jù)地圖如下:
上圖反映的結(jié)果比較符合常識,北上深廣杭這些一線城市/互聯(lián)網(wǎng)重鎮(zhèn)的提及次數(shù)最多。其次是成都、天津、重慶、蘇州和青島這些二線城市,再次是哈爾濱、大連。
總結(jié)起來的一句廢話就——互聯(lián)網(wǎng)發(fā)達(dá)的城市主要集中在東南沿海。
上面的數(shù)據(jù)分析大多數(shù)是基于數(shù)值型數(shù)據(jù)的描述性分析,接下來,筆者將利用其中的文本數(shù)據(jù)做深入的文本挖掘。
6.2 針對“產(chǎn)品運營&數(shù)據(jù)分析”欄目的專項文本挖掘
因為筆者關(guān)注的領(lǐng)域主要是數(shù)據(jù)分析和產(chǎn)品運營,平時寫的文章也大都集中在這兩塊,所以筆者把這兩個板塊的數(shù)據(jù)單獨拎出來,從文本挖掘角度,做一系列由淺入深的數(shù)據(jù)分析。
6.2.1 高頻詞匯TOP200
首先是文本挖掘中最常規(guī)的高頻詞分析,筆者從中獲取了TOP200詞匯。
可以看到,大部分是跟“運營”息息相關(guān)的詞匯,比如“用戶”、“運營”、“內(nèi)容”、“APP”、“營銷”、“微信”等詞匯。
單獨看其中的高頻詞TOP30,可以發(fā)現(xiàn),這些詞大部分跟新媒體運營(“內(nèi)容”、“微信”、“微博”、“文章”等)、用戶(“用戶”、“粉絲”、“需求”、“社群”、“客戶”、“消費者”等)有關(guān)系。
將這 TOP 200 高頻詞制成關(guān)鍵詞云,直觀地看到其中重要的信息。
6.2.2 Bicluster文本聚類分析
剛才筆者提到了基于關(guān)鍵詞歸納主題的做法,在上面的高頻詞中,這種主題特征不甚明顯,因而筆者采用更強有力的Bicluster文本聚類分析,從“數(shù)據(jù)分析&產(chǎn)品運營”的數(shù)千篇文章中“析出”若干“子主題”,并進行“發(fā)布年份”&“主題構(gòu)成”之間的關(guān)聯(lián)分析。
基于譜聯(lián)合聚類算法(Spectral Co-clusteringalgorithm)的文檔聚類,這部分的原理涉及到艱深的數(shù)學(xué)和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結(jié)果。
先將待分析的文本經(jīng)TF-IDF向量化構(gòu)成了詞頻矩陣,然后使用Dhillon的譜聯(lián)合聚類算法(Spectral Co-clusteringalgorithm)進行雙聚類(Biclusters)。所得到的“文檔-詞匯”雙聚類(Biclusters)會把某些文檔子集中的常用詞匯聚集在一起,由若干個關(guān)鍵詞構(gòu)成某個主題。
正式分析之前,先對保存在Excel中的文本數(shù)據(jù)做一定的預(yù)處理,使用“乾坤大挪移”,將Excel中的文本數(shù)據(jù)按年份一條條的歸到不同的文件夾下面,具體步驟如下圖所示:
做好預(yù)處理后,進行正式的Bicluster文本聚類,結(jié)果如下:
上面的分析結(jié)果中,Bicluster1的話題區(qū)分度不明顯,且僅包含2個文檔和16個關(guān)鍵詞,所以排除掉這個主題,僅留下其他5個主題,排除噪聲,從這些子話題中的主要關(guān)鍵詞來歸納其要旨。
為了看得更清楚,筆者將這些數(shù)據(jù)整理成二維表格的形式:
從上表可以看出,“數(shù)據(jù)分析&產(chǎn)品運營”下的子話題中,涉及“新媒體運營”的內(nèi)容最多,占到文檔總量的35.62%,其次是“APP運營”和“智能硬件”方面的話題,分別占到文檔總量的23.72%和19.6%。而“數(shù)據(jù)分析”話題下的文檔數(shù)最少。
將子話題和年份進行交叉分析,可以從中了解到各個子話題在各年份的信息分布量,從某種意義上講,也就是話題熱度。
從上表可以看到,“智能硬件”的子話題在2012和2013年的熱度最高,而“APP運營”和“數(shù)據(jù)分析”在2016和2017年開始火了起來,而“新媒體運營”在近3年也是風(fēng)光無限。而單獨從2016年來看,除了“智能硬件”方面的話題不火外,其他三個話題均有較高的熱度,達(dá)到了近5年來熱度峰值,看來2016年是個特殊的年份。
總體上,除了“智能硬件”這個子話題外,其他3個子話題熱度都呈現(xiàn)出不斷上升的趨勢,當(dāng)然,筆者假設(shè)2017年的4個月過完的時候還是如此。
6.2.3 基于“數(shù)據(jù)分析&產(chǎn)品運營”語境下的關(guān)聯(lián)詞分析
接下來進行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進行詞向量模型訓(xùn)練,然后用來進行關(guān)聯(lián)詞分析。
Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的關(guān)聯(lián)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。類似的例子可以參看筆者之前的文章《用數(shù)據(jù)全方位解讀<歡樂頌2>》、《以<大秦帝國之崛起>為例,來談大數(shù)據(jù)輿情分析和文本挖掘》。
由此,通過Word2vec,我們可以查找到在“數(shù)據(jù)分析&產(chǎn)品運營”語境下的各個詞匯的關(guān)聯(lián)詞。
先看看筆者最關(guān)心的“數(shù)據(jù)分析”,在“數(shù)據(jù)分析&產(chǎn)品運營”語境下有哪些詞與之關(guān)聯(lián)度最高,這里采用的method是’predict_output_word’,也就是把“數(shù)據(jù)分析”單個詞當(dāng)做語境,預(yù)測在“數(shù)據(jù)分析”語境下的關(guān)聯(lián)詞。(Report the probability distribution of the center word given the context words as input to the trainedmodel.)
在這種情況下,“數(shù)據(jù)分析”與自身的關(guān)聯(lián)度不是1了,因為它可能在一段話里出現(xiàn)兩次。后面關(guān)聯(lián)度較高的詞匯依次是“統(tǒng)計分析”、“數(shù)據(jù)挖掘”、“BI”、“Excel”等,從其中的幾個數(shù)據(jù)工具(Growing IO、神策和友盟等)來看,廠家的品宣軟文做的還是蠻好的。
再來看看“數(shù)據(jù)挖掘”+“運營”下的關(guān)聯(lián)詞有哪些,這次采用的method是’most_similar’,結(jié)果如下:
結(jié)果顯示,這2個詞的組合得到的關(guān)聯(lián)詞,除了“數(shù)據(jù)分析”外,還有“精細(xì)化”、“BI”、“統(tǒng)計分析”、“(用戶)畫像”、“數(shù)據(jù)模型”、“指標(biāo)體系”、“產(chǎn)品策劃”等關(guān)鍵詞,它們是數(shù)據(jù)運營中涉及較多的概念。
下面是“pm”和“運營”的共同關(guān)聯(lián)詞,它們能較好的說明運營和產(chǎn)品之間的存在的某些“公共關(guān)系”。
本來,這兩個職位由于跟進流程多,涉及面廣,需要干各種“雜活”,因而很多產(chǎn)品或運營抱怨自己就是 “打雜”的。近一段時間,互聯(lián)網(wǎng)界某些專家適時造出“全棧產(chǎn)品”和“全棧運營”這兩個新概念,認(rèn)為必須在這兩個崗位上掌握更多的“斜杠”技能,熟諳相關(guān)領(lǐng)域的各個“工種”,最好精通各個流程。要做好這兩個“非技術(shù)”的崗位,很多方面不僅要“略懂”,還要扮演“多面手”的角色,比如“技術(shù)開發(fā)”、“產(chǎn)品策劃”等,如此才能在實際工作中“獨當(dāng)一面”。
接下來,筆者從中挑選出出90個跟“數(shù)據(jù)分析”具有較高關(guān)聯(lián)度的詞匯,看哪些詞匯在該語境下中提及次數(shù)最多,以及這些詞之間的共現(xiàn)關(guān)系(Co-occurrence Relation),通過詞匯鏈接關(guān)系的多寡,找到重要性程度最高的詞匯。
從字體大小來看, “數(shù)據(jù)”、“數(shù)據(jù)分析”、“運營”、“數(shù)據(jù)挖掘”“數(shù)據(jù)庫”、“預(yù)測”等詞鏈接的詞匯最多,它們的重要性程度在這90個詞匯中的重要性程度最高。
從顏色上來看,這90個詞根據(jù)“關(guān)系親疏(共現(xiàn)關(guān)系)”聚集為5個社群(Community),最為突出的是3個社群,分別是:
- 橙色系的“SPSS”和“SAS”,數(shù)據(jù)分析工具類;
- 紫色系的“數(shù)據(jù)”、“數(shù)據(jù)分析”、“數(shù)據(jù)挖掘”等,數(shù)據(jù)分析相關(guān)重要的概念;
- 綠色系的“營銷”、“社會化媒體”、“監(jiān)測”等,品牌營銷類。
其中,“社會化媒體”與“營銷”之間的線條最為明顯,代表它們之間有很強的關(guān)聯(lián)度—因為社會化媒體正式營銷活動的載體,營銷活動必須在各類社會化媒體(微信、微博、頭條號等)實施。
6.2.4 Lexical dispersion plot(詞匯分散圖)
接下來,筆者想了解“產(chǎn)品運營&數(shù)據(jù)分析”欄目中的某些詞在2012.05~2017.07之間的數(shù)量分布情況,以及它們出現(xiàn)的位置信息(the location of a word in the text),這時可以利用Lexicaldispersion plot(詞匯分散圖)進行分析,它可以揭示某個詞匯在一段文本中的分布情況(Producea plot showing the distribution of the words through the text)。
筆者先將待分析的文本按時間順序進行排列,分詞后再進行Lexicaldispersion plot分析。因此,文本字?jǐn)?shù)的累積增長方向與時間正向推移的方向一致。圖中縱軸表示詞匯,橫軸是文本字?jǐn)?shù),是累加的;黑色豎線表示該詞匯在文本中被提及一次,對應(yīng)橫軸能看到它所處的位置信息,空白則表示無提及。
從上圖可以看出,在近4,500,000詞匯量的文本中,“運營”、“微博”和“電商”在近6年里的提及次數(shù)極高,中間的間隙較少,貫穿始終,它們是作家談?wù)撟疃嗟娜齻€詞匯/話題。像“新媒體”、“微信公眾號”、“用戶運營”、“社群”等詞匯,在頭兩年的提及熱度不高,但后來居上,提及量呈現(xiàn)逐漸上漲的趨勢。而“BI”、“CRM”在近六年內(nèi)呈零星分布,提及量較少,在“產(chǎn)品運營&數(shù)據(jù)分析”欄目中屬于冷門話題。
6.2.5 利用DTM模型(Dynamic Topic Models?)分析主題下的熱點變遷
上面的分析是針對某個詞匯的時間動態(tài)分析,這里筆者要分析的是某個話題隨時間的變遷情況(This implements topics that change over time)。筆者運用的模型是DTM模型 (Dynamic Topic Models?),它是“概率主題模型”家族的一員,用于對語料庫中主題演變進行建模。
它基于這樣的假設(shè):
蘊含時間因素的主題,盡管它包含的關(guān)鍵詞會隨著時間的變化而產(chǎn)生相應(yīng)的變化,但它如構(gòu)成要素不斷更新?lián)Q代的“忒修斯之船(The Ship of Theseus)”一般,即使同一主題下的開端和末尾中的主題詞沒有一個是相同的,但還是原先的主題,保留有相同的語境。(By having a time-basedelement to topics, context is preserved while key-words may change.)
首先,從“產(chǎn)品運營&數(shù)據(jù)分析”中“解析”出如下6個子話題,它們是“運營”、“商業(yè)模式”、“流量運營&數(shù)據(jù)分析”、“品牌營銷&數(shù)據(jù)分析”、“電商運營”和“內(nèi)容運營”,如下表所示:
筆者對Topic2,也就是“流量運營&數(shù)據(jù)分析”在2012.05~2017.07間的話題變遷情況感興趣,于是將這6年間出現(xiàn)的主題詞重新整合,制成下面的熱力圖:
上圖中縱軸是主題詞,橫軸是年份,顏色由淺入深代表數(shù)值的由小到大。從中可以明顯的看出,“流量運營&數(shù)據(jù)分析”子話題下的“數(shù)據(jù)”、“數(shù)據(jù)分析”、“運營”和“業(yè)務(wù)”在該話題中始終處于“核心地位”,保持較高且穩(wěn)定的word_prob值。而“渠道”、“游戲”、“互金”在近3年的word_prob值有了較大的提升,說明社區(qū)的作者在近期比較關(guān)注這3個主題詞所代表的領(lǐng)域,間接表明它們在互聯(lián)網(wǎng)中的話題熱度呈現(xiàn)上升趨勢。
6.2.6 利用ATM模型(Author-TopicModel)分析作家寫作主題分布
在這個版塊,筆者想了解“人人都是產(chǎn)品經(jīng)理”上作家的寫作主題,分析某些牛X作家喜歡寫哪方面的文章(比如“產(chǎn)品運營”、“數(shù)據(jù)分析”、“新媒體運營”等)寫作了啥,主題相似度的作者有哪些。
為此,筆者采用了ATM模型進行分析,注意,這不是自動取款機的縮寫,而是author-topic model:
ATM模型(author-topic model)也是“概率主題模型”家族的一員,是LDA主題模型(Latent Dirichlet Allocation )的拓展,它能對某個語料庫中作者的寫作主題進行分析,找出某個作家的寫作主題傾向,以及找到具有同樣寫作傾向的作家,它是一種新穎的主題探索方式。
首先,先從文本中“析出”若干主題,經(jīng)過探索,10個主題的區(qū)分度正好。根據(jù)各個主題下的主題詞特征,筆者將這10個主題歸納為 :“行業(yè)動態(tài)”、“電商運營”、“商業(yè)模式”、“產(chǎn)品運營”、“社交媒體”、“互金產(chǎn)品”、“數(shù)據(jù)運營”、“用戶研究”、“產(chǎn)品設(shè)計”和“新媒體運營”。
同時,在數(shù)據(jù)處理的過程中,模型建立了作者(author)、主題(topic)及文檔(document)之間的映射關(guān)聯(lián)關(guān)系,以dict的形式保存數(shù)據(jù)。
模型訓(xùn)練完畢,先看看筆者自己的寫作主題分布吧。值得注意的是,這里的文檔數(shù)據(jù)經(jīng)過甄選,并不是全部的文檔數(shù)據(jù),因此數(shù)量會少于網(wǎng)站上所看到的文章數(shù)。
上面的“Docs”中的元素是文章對應(yīng)的文檔ID編號按照時間順序排列的,“Topics”中的元素有兩列,一列代表主題,一列代表主題的權(quán)重大小。很明顯,筆者的寫作主題主要集中在“數(shù)據(jù)運營”、“新媒體運營”和“用戶研究”這3個主題上,有些直接從標(biāo)題即可看出,有些“潛藏”在文章的正文論述之中。
再看看運營大神韓敘的寫作主題分布,很明顯,他側(cè)重于寫產(chǎn)品運營方面的干貨文章,而且寫作主題很明確。
再看看另一位專欄作家類類的寫作主題分布,他傾向于寫產(chǎn)品運營、用戶研究和社交媒體方面的文章,看過他文章的人都知道,他尤其擅長基于社區(qū)的用戶運營。
再看看另一位運營大神——張亮,他的寫作主題跟類類幾近一致,也是產(chǎn)品運營、用戶研究和社交媒體方面的干貨分享。
接下來,根據(jù)上述作者的寫作主題分布,筆者找出與他們寫作相似度最高的作家,為保持準(zhǔn)確度,筆者有一個限制條件——發(fā)文數(shù)量不小于3篇。
結(jié)果以表格的形式展示,主要的維度有“作者(Author)”、“相似度得分(Score)”和“文檔數(shù)量(Size)”。以下是“韓敘”“類類有話說”和“張亮-leo”的相似作者名單TOP10,限于篇幅,筆者就不做過多分析了。
6.2.7 LSI相似標(biāo)題索引
最后,筆者想通過文章標(biāo)題之間的語義相似關(guān)系來找到相同主題的文章,而這種語義相關(guān)性不僅僅是字面上的(不包含相同的詞匯,但其中的詞含義相近)。利過LSI(Latent Semantic Index,潛在語義索引)就可以做到這一點。
通過“詞袋模型(bag-of-words)”將語句映射到特定的Vector Space Model (VSM)中,比較語句向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細(xì)的原理推導(dǎo),小伙伴們可以自行Google腦補。
從標(biāo)題中找出主題相似的文章,檢索感興趣的內(nèi)容,不僅僅是通過關(guān)鍵詞檢索,潛在語義分析。
在這里,筆者先后對如下三篇文章進行LSI語義索引:
- 當(dāng)數(shù)據(jù)分析遭遇心理動力學(xué):用戶深層次的情感需求浮出水面(萬字長文,附實例分析)
- 萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運營領(lǐng)域的“增長黑客”
- 數(shù)據(jù)運營實操 | 如何用聚類分析進行企業(yè)公眾號的內(nèi)容優(yōu)化
結(jié)果顯示如下:
從上面的索引結(jié)果可以看到,搜尋到的語句和原語句之間即使沒有包含相同的詞匯,但語義上是相關(guān)的,分別從屬于4“用戶研究”、“運營實操根據(jù)”和“內(nèi)容運營”這三個話題。筆者通過這種文本相似度索引,就可以找到自己感興趣的內(nèi)容,進行更進一步的文本挖掘。
結(jié)語
限于篇幅,上述許多模型的用途/使用場景,筆者并未展開詳說,比如Lexical Dispersion Plot、Bicluster文本聚類和DTM模型可以預(yù)測詞匯和主題的熱度,從而為寫作選材和熱點追蹤提供參考;而LSI相似文本索引和ATM模型可以在內(nèi)容創(chuàng)作中進行競品分析,找到與筆者寫作主題相近的作家和內(nèi)容進行針對性的分析,知己知彼,做好自己的寫作風(fēng)格定位。
拿筆者的分析實踐為例,在“數(shù)據(jù)分析”欄目中,采用上述分析手段,筆者發(fā)現(xiàn)相關(guān)文章大都是理論型和設(shè)想型的論述,缺少真實的數(shù)據(jù)分析實例支撐,真正投入到實際工作中的效果也未可知;同時,很多是常規(guī)的、基礎(chǔ)性的數(shù)值型分析,介紹的工具則是Excel、SQL、SPSS,難以滿足當(dāng)今大數(shù)據(jù)背景下的數(shù)據(jù)分析實踐。因此,筆者的寫作風(fēng)格傾向于“少許理論+實操”,盡量少扯“看起來對、看過就忘”的理論,在數(shù)據(jù)分析工具和方法的使用上盡量做到多樣化,實例分析不為得出具體的結(jié)論,重在開拓讀者的數(shù)據(jù)分析思路,授人以魚。
最后,透過上面的外部數(shù)據(jù)分析實例,筆者還想再扯點無關(guān)的:
- 要厘清不同數(shù)據(jù)類型的特征,如本例中的數(shù)值型數(shù)據(jù)、文本型數(shù)據(jù)以及從中抽取的關(guān)系型數(shù)據(jù),對其采用合適的分析思路和挖掘方法;
- 數(shù)據(jù)分析的方法要盡可能的多樣化,如本例中采用了多種分析方法和模型,如交叉分析、高頻詞分析、關(guān)鍵信息抽取、詞匯分散圖分析和ATM模型等;
- 在分析層次上,以業(yè)務(wù)邏輯為軸線,由淺入深,由簡入繁,由表及里,既有描述型的統(tǒng)計分析,也有診斷型的數(shù)據(jù)挖掘,還有基于演變規(guī)律(如動態(tài)主題模型)的預(yù)測型分析。
數(shù)據(jù)來源及參考資料:
1. 數(shù)據(jù)來源:人人都是產(chǎn)品經(jīng)理,http://www.codemsi.com
2. Kemal Eren,An introduction to?biclustering, http://www.kemaleren.com/an-introduction-to-biclustering.html
3. Ofir Pele and MichaelWerman,?A linear time histogram metric for improved SIFT matching,2008.
4. Matt Kusner et al.?From Embeddings To Document Distances,2015.
5. Michal Rosen-Zvi, Thomas Griffiths et al. The Author-Topic Modelfor Authors and Documents
6. David Hall et al.?Studying the Historyof Ideas Using Topic Models
7. D.Blei and J. Lafferty. Dynamic topicmodels. In Proceedings of the 23rd International Conference on MachineLearning, 2006.
#專欄作家#
作者:蘇格蘭折耳喵,微信公眾號:Social Listening與文本挖掘,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pixabay,基于 CC0 協(xié)議
好文章啊,謝謝大牛分享
好文章,大神好牛!
謝謝??
花了至少4個小時看了你的兩篇文章… 打開了新世界的大門 另,大神你的微信公號配圖也太丑了略略略:P
公眾號配圖,具體是哪張呢?我好改進,我的微信號g18818233178,歡迎真.讀者向我吐槽 ??
文章干貨滿滿、深入淺出,對于新人十分友好。不過有一點請教作者,把網(wǎng)站里所有的文章抓取下來,使用的是哪款工具或者哪種辦法,可否專門出一篇文章講講內(nèi)容抓取這一塊。
兩種方式:編程語言寫爬蟲;利用八爪魚、火車頭這樣的工具抓取數(shù)據(jù)
利用DTM模型(Dynamic Topic Models )分析主題下的熱點變遷中,是依據(jù)什么分出不同主題的,又是如何進行主題詞權(quán)重統(tǒng)計的
主題提煉的核心部分是吉布斯采樣技術(shù),跟LDA模型類似的算法,是無監(jiān)督的,權(quán)重是每個詞可能出現(xiàn)在該主題內(nèi)的概率
請問,詞匯分散圖是用什么工具處理的
nltk
利用周末學(xué)習(xí)數(shù)據(jù)分析,看了兩小時專業(yè)書實在看不下去,于是就來折耳喵這里了(訂閱好久了沒仔細(xì)看,只是覺得高上大),沒想根本剎不住車啊,看到現(xiàn)在晚上7點多了根本停不下來。憋攔我,朕還要接著學(xué)。
成為學(xué)霸的節(jié)奏,加油哦
只有66666
666,很厲害!
?? 作者應(yīng)該學(xué)過技術(shù)吧,會自己寫代碼,NLP 深度學(xué)習(xí)技術(shù)很熟練啊,這不是一般運營能夠企及的,不過分析思路杠杠的。佩服作者的動手能力??待R。
過獎了,也沒學(xué)多久,工作所學(xué),半路出家學(xué)了點 ??
太專業(yè)了,6鍵已壞,過馬路老奶奶都不扶,就扶你。
你在這回答也是亮了,路邊美女摔倒了我都不服,就服你
太干了,得周末翻出來仔細(xì)研究一遍,大神 ?? 求勾搭啊
都說很干,先碼了有空看
作者大大在介紹DTM模型時,提到了“特修斯之船”,好贊,它可是古希臘的一個著名悖論:特修斯之船(The Ship of Theseus),最為古老的思想實驗之一。最早出自普魯塔克的記載。它描述的是一艘可以在海上航行幾百年的船,歸功于不間斷的維修和替換部件。只要一塊木板腐爛了,它就會被替換掉,以此類推,直到所有的功能部件都不是最開始的那些了。問題是,最終產(chǎn)生的這艘船是否還是原來的那艘特修斯之船,還是一艘完全不同的船?如果不是原來的船,那么在什么時候它不再是原來的船了?
本喵是不是有點博學(xué)多才,哈哈 ??
文中說網(wǎng)站評論太少,嚇得我趕緊來評論 ??
哈哈,看文再評論,是一種美德
抱歉- -眼瞎了。
所以樓主的公眾號或者微信留在了哪里0 0?? ??
有點干,的找個時間慢慢看,慢慢消化
嗯,不急,慢慢看
真干,像讀了一篇論文。。。
你沒看錯,就是一篇論文,數(shù)據(jù)分析本來就是嚴(yán)謹(jǐn)?shù)耐嬉猓欣碛袚?jù),數(shù)據(jù)來源、原理出處都得標(biāo)明,概念也需界定清楚
看的腿有電軟
頂住,站好咯 ??
看了戰(zhàn)狼2“大數(shù)據(jù)輿情分析”那篇文章的反響,再看這篇分析的反響,深感“大數(shù)據(jù)輿情分析”還要走便民路線啊,新浪微輿情的所有模塊截個圖,就是足夠資深的數(shù)據(jù)分析師了嘛……
偶爾追個熱點就好,但數(shù)據(jù)分析總要有點深度的,哈哈哈
也是同感,雞湯易消化,但營養(yǎng)不足,還是干糧頂餓···
?? 好干,有點噎著了,消化不良
那就對了,看得太爽,看的太舒服的文章,很可能是雞湯,讓你讀起來渾身不舒服的文章才是苦口良藥,哈哈哈 ??
這個干貨寫的非常的好
哈哈,過獎了 ??