數(shù)據(jù)運(yùn)營(yíng)|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/h2>
4 評(píng)論 60871 瀏覽 244 收藏 19 分鐘

本文從業(yè)務(wù)的角度來談?wù)劵诖髷?shù)據(jù)的文本分析及其在商業(yè)場(chǎng)景中的應(yīng)用,正文會(huì)附上一些實(shí)例及開放的工具,力求讓理論落地,服務(wù)于實(shí)踐。大數(shù)據(jù)離我們?cè)絹碓浇瑥氖聰?shù)據(jù)運(yùn)營(yíng)的小伙伴們,你準(zhǔn)備好了嗎?

本文是《數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要!》的上篇,聊的是文本分析的一些基本知識(shí),下篇將以一個(gè)實(shí)際案例來聊聊基于大數(shù)據(jù)的文本分析是如何應(yīng)用在商業(yè)場(chǎng)景中的。

1.我們?nèi)粘K斫獾摹皵?shù)據(jù)分析”

在我們?nèi)粘5漠a(chǎn)品和運(yùn)營(yíng)工作中,經(jīng)常接觸的數(shù)據(jù)分析方法、形式絕大部分是基于對(duì)數(shù)字(值)的描述性分析,如銷量情況、用戶增長(zhǎng)情況、留存情況和轉(zhuǎn)化情況等,高級(jí)一些的數(shù)據(jù)分析方法有因子分析、聚類分析和回歸分析等方法,見下圖:

圖片1

常用的數(shù)據(jù)分析方法/形式

這些分析方法/形式有一個(gè)共同點(diǎn):都是跟數(shù)字在打交道,說的專業(yè)一點(diǎn),就是基于對(duì)結(jié)構(gòu)性數(shù)據(jù)(即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù))的分析,比如姓名、性別、年齡這些信息,以Word、Excel等形式呈現(xiàn)的數(shù)據(jù)。這種類別的數(shù)據(jù)比較好處理,只要簡(jiǎn)單的建立一個(gè)對(duì)應(yīng)的表就可以了。

圖片2

典型的結(jié)構(gòu)性數(shù)據(jù)表格

然而,數(shù)據(jù)分析僅僅只有這一種類型嗎?答案當(dāng)然是:NO!

一個(gè)完整而清晰的數(shù)據(jù)分析過程,除了在范圍上,要進(jìn)行宏觀和微觀的分析外,還需要在分析的層次上有所遞進(jìn)和深入,以下是我們進(jìn)行數(shù)據(jù)分析時(shí)常會(huì)考慮到7個(gè)維度,見下圖:

圖片3

數(shù)據(jù)分析的7個(gè)維度(來源:《誰說菜鳥不會(huì)數(shù)據(jù)分析(工具篇)》)

在上圖中,對(duì)數(shù)值型數(shù)據(jù)的分析能覆蓋絕大部分的維度,但它更多的是描述事物的表層現(xiàn)象,主要是在事物的“量”上進(jìn)行描述。也就是說,對(duì)數(shù)值型數(shù)據(jù)的分析并不能回答其中最為重要的一個(gè)維度——“Why”,但在產(chǎn)品和運(yùn)營(yíng)的實(shí)際工作中,發(fā)掘出用戶的喜好、購(gòu)買/使用及流失的內(nèi)在原因(也就是洞察用戶的行為動(dòng)機(jī)),對(duì)我們的工作至關(guān)重要,它會(huì)直接影響產(chǎn)品的功能設(shè)定和運(yùn)營(yíng)策略。

這時(shí),對(duì)非結(jié)構(gòu)性數(shù)據(jù)進(jìn)行分析的需求呼之欲出。

據(jù)國(guó)際數(shù)據(jù)公司(IDC)的在2011年的調(diào)查顯示,在今后十年里,非結(jié)構(gòu)化數(shù)據(jù)將占所有產(chǎn)生的互聯(lián)網(wǎng)數(shù)據(jù)的90%。而作為一個(gè)尚未得到充分開發(fā)的“信息金礦”,非結(jié)構(gòu)化數(shù)據(jù)分析可以揭示出,我們之前所認(rèn)為的異常復(fù)雜、且難以捉摸的諸多商業(yè)驅(qū)動(dòng)因素間的重要相關(guān)關(guān)系。

所以,我們有必要對(duì)非結(jié)構(gòu)性數(shù)據(jù)引起高度重視?。?!

先等等,什么是非結(jié)構(gòu)性數(shù)據(jù)呢?

2.什么是文本分析?

非結(jié)構(gòu)性數(shù)據(jù)是與結(jié)構(gòu)性數(shù)據(jù)相對(duì)的一個(gè)概念,它包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。

圖片4

非結(jié)構(gòu)性數(shù)據(jù)組成部分

本文所提及的非結(jié)構(gòu)性數(shù)據(jù)特指文本數(shù)據(jù),這里包括且不限于社交網(wǎng)絡(luò)(微博、微信、QQ和脈脈等)、客戶反饋(客戶抱怨郵件、社交媒體網(wǎng)站的帖子、開放式問卷調(diào)查、消費(fèi)者點(diǎn)評(píng))新聞媒體、銷售人員的拜訪記錄等。

文本分析的目的在于從根本上把所有的非結(jié)構(gòu)化數(shù)據(jù)整合從而化為結(jié)構(gòu)化數(shù)據(jù),從之前被認(rèn)為難以量化的海量文本中抽取出大量有價(jià)值的、有意義的數(shù)據(jù)或信息。

所以,對(duì)文本數(shù)據(jù)進(jìn)行分析,我們能得到哪些有價(jià)值的商業(yè)線索或洞察呢?

3.基于大數(shù)據(jù)的文本分析的商業(yè)價(jià)值

文本數(shù)據(jù)來源異常廣泛且多樣,很多時(shí)候需要搜索海量的網(wǎng)頁。當(dāng)然,只有基于恒河沙數(shù)般體量的大數(shù)據(jù)文本分析,才有可能得出比較可靠、有說服力的商業(yè)insight。

所以,“文本分析”常常被冠以“大數(shù)據(jù)文本分析”的全名。

“文本分析”,或者“語義分析”通過分析海量的非結(jié)構(gòu)性的文本(信息)數(shù)據(jù),得出的不僅是關(guān)于“是什么”的描述性分析,更多的回答了“為什么”,即目標(biāo)用戶購(gòu)買和使用產(chǎn)品的潛在動(dòng)機(jī)/真實(shí)需求。

在商業(yè)實(shí)踐中,基于大數(shù)據(jù)的文本分析被廣泛應(yīng)用于各行各業(yè),利用認(rèn)知技術(shù)獲得全新的商業(yè)洞察,解決關(guān)鍵的知識(shí)性問題,這被IBM稱為“認(rèn)知商業(yè)”。例如企業(yè)可以從客戶關(guān)系數(shù)據(jù)、 社交網(wǎng)絡(luò)、 新聞網(wǎng)站和購(gòu)物網(wǎng)站評(píng)論等渠道獲取文本數(shù)據(jù),進(jìn)而通過計(jì)算機(jī)進(jìn)行自然語言處理,從而揭示出在任何非結(jié)構(gòu)化文本信息中的“4W”要素,即人物(Who)、事件(What)、時(shí)間(When)、地點(diǎn)(Where)等,結(jié)合其中隱藏的“Why”進(jìn)行關(guān)聯(lián)分析,最終得到貫穿所有業(yè)務(wù)的全新層面的商業(yè)洞見。

圖片5

大數(shù)據(jù)文本分析提取出的主要維度

舉例來說,某個(gè)APP的用戶滿意度一段時(shí)間內(nèi)上升不少,可以從評(píng)論量中好評(píng)數(shù)量的增加以及服務(wù)評(píng)價(jià)幾顆星來看出,但這只是描述性的分析,并不能知道為什么用戶會(huì)給好評(píng)或差評(píng),產(chǎn)品或服務(wù)的哪些方面會(huì)得到好評(píng)。

然而,借助大數(shù)據(jù)文本分析,我們通過提取出的“4W”要素獲得對(duì)用戶“Why”的理解:

  • 什么時(shí)候用戶的評(píng)論較正面,什么時(shí)候較負(fù)面(When)
  • 用戶所給的好評(píng)和差評(píng)分別集中在該APP的哪些方面(What)
  • 哪些人評(píng)論給差評(píng),哪些人給好評(píng),他們?cè)谟脩糁械难哉撚绊懥θ绾危╓ho)
  • 哪些地區(qū)的用戶給好評(píng)/差評(píng),這些地區(qū)的用戶分別注重該APP的哪些方面(Where、What)

簡(jiǎn)而言之,基于大數(shù)據(jù)的文本分析能夠揭示出潛藏在文本信息當(dāng)中的趨勢(shì)和關(guān)聯(lián),為商業(yè)決策、行業(yè)趨勢(shì)研究和熱點(diǎn)內(nèi)容追蹤提供有力支持。

那接下來的問題是:我們要去哪里找這些非結(jié)構(gòu)性的文本數(shù)據(jù)呢?

4.這些有價(jià)值的海量文本數(shù)據(jù)“藏”在哪里?

社會(huì)化媒體時(shí)代,用戶在購(gòu)買產(chǎn)品/服務(wù)前,使用中,或是使用之后,一般會(huì)在互聯(lián)網(wǎng)上表達(dá)自己的對(duì)產(chǎn)品的疑慮或看法,通過互聯(lián)網(wǎng)這個(gè)平臺(tái)表達(dá)社情民意,體現(xiàn)自身的真實(shí)意愿和產(chǎn)品/服務(wù)的體驗(yàn)感受等。

一般來說,用戶產(chǎn)生的有價(jià)值的“發(fā)聲”主要集中在如下6個(gè) “場(chǎng)所”:

圖片6

大數(shù)據(jù)文本信息的來源

同時(shí),在互聯(lián)網(wǎng)的產(chǎn)品和運(yùn)營(yíng)工作中,我們需要重點(diǎn)瞄向社交媒體、電商平臺(tái)及APP應(yīng)用市場(chǎng)這3個(gè)用戶“言論集結(jié)地”,從上面獲取用戶對(duì)于產(chǎn)品/服務(wù)的“發(fā)聲”。

(1)社交媒體

社交媒體發(fā)展日益矚目,論壇、博客、微博、微信等社交網(wǎng)絡(luò)接踵而至,它們?cè)谇臒o聲息中改變著我們的生活方式。

在交互性強(qiáng)、容易沉淀價(jià)值信息的網(wǎng)絡(luò)論壇上,網(wǎng)民們可以獲得各種信息服務(wù),同時(shí)可以發(fā)布信息、進(jìn)行討論、聊天,用發(fā)帖回帖來表達(dá)對(duì)事件、產(chǎn)品、品牌和企業(yè)的看法。

在容易爆發(fā)熱點(diǎn)話題的微博上,用戶除了會(huì)主動(dòng)發(fā)布的微博外,還會(huì)主動(dòng)追蹤熱點(diǎn)事件、喜愛的興趣頻道和明星的微博,轉(zhuǎn)發(fā)和評(píng)論這些微博。

在具有強(qiáng)關(guān)系屬性的微信上,用戶會(huì)對(duì)自己關(guān)注的公眾號(hào)發(fā)布的內(nèi)容進(jìn)行評(píng)論和轉(zhuǎn)發(fā),以此來表達(dá)自己的觀點(diǎn)和情緒……

在這個(gè)社會(huì)化的媒體時(shí)代,用戶成為企業(yè)最好的品牌推廣大使。如何從這些可觀的社交媒體數(shù)據(jù)中分析出用戶的潛在且準(zhǔn)確的購(gòu)物意愿及用戶需求,將成為提高品牌價(jià)值和聲譽(yù),改善用戶體驗(yàn)的新興途徑。

例如,新浪微博上粉絲過萬的零售商,可以根據(jù)對(duì)某條轉(zhuǎn)發(fā)量極大的微博進(jìn)行傳播分析,從中挖掘出粉絲的性別、地域、關(guān)注的微話題、星座及興趣標(biāo)簽,為粉絲個(gè)性化的去推送優(yōu)惠及新品信息。

由此可見,這些看似龐大且無規(guī)則的社交數(shù)據(jù),往往包含著大量的用戶基本信息和興趣標(biāo)簽,它們是繪制用戶畫像的絕好素材。

(2)電子商務(wù)平臺(tái)

電子商務(wù)網(wǎng)站上的海量的用戶言論數(shù)據(jù)隱含著巨大的信息,這些網(wǎng)站包括且不限于淘寶網(wǎng)、京東商城、亞馬遜和大眾點(diǎn)評(píng)網(wǎng)等主流購(gòu)物、服務(wù)平臺(tái)。

例如,亞馬遜上的用戶對(duì)某商品的評(píng)論,商家可以根據(jù)用戶的評(píng)論和反饋,為用戶提供定制性的服務(wù),甚至可以預(yù)測(cè)用戶的需求,從而達(dá)到更加準(zhǔn)確的銷售目的。

(3)其他第三方應(yīng)用市場(chǎng)

移動(dòng)互聯(lián)網(wǎng)時(shí)代誕生了的APP,這些APP除了“掛”在自家的官方網(wǎng)站以外,更多的是分布于第三方應(yīng)用市場(chǎng)(如蘋果商店、91助手、豌豆莢、小米應(yīng)用市場(chǎng)、百度手機(jī)助手等),這時(shí)收集用戶的大量吐槽對(duì)于改善APP的用戶體驗(yàn)至關(guān)重要。通過對(duì)用戶大量評(píng)論的文本分析,我們可以第一時(shí)間了解到產(chǎn)品的哪些方面是用戶喜歡的,哪些方面是用戶比較嫌棄的,哪些是無關(guān)痛癢的“偽需求”,力求在短時(shí)間內(nèi)改善產(chǎn)品的功能與設(shè)計(jì)。

綜上所述,相關(guān)文本數(shù)據(jù)的來源多樣,而且覆蓋了非常廣泛的話題。任何和產(chǎn)品/服務(wù)相關(guān)的陳述和評(píng)論本質(zhì)上都是有用的信息,因?yàn)檫@些陳述可以讓產(chǎn)品/品牌所有者了解用戶的最真實(shí)的想法。

5.大數(shù)據(jù)文本分析的一些應(yīng)用場(chǎng)景

以上說的是大數(shù)據(jù)文本分析的一些原理、數(shù)據(jù)來源及其商業(yè)價(jià)值,現(xiàn)在筆者就從以下5點(diǎn)來談?wù)勊膶?shí)際應(yīng)用場(chǎng)景:

(1)開放式作答處理

大量問卷調(diào)研中的開放式問題的處理,這些開放式的問題以電子文檔的形式進(jìn)行存儲(chǔ),使計(jì)算機(jī)進(jìn)行文本分析成為可能,可以在短時(shí)間內(nèi)從數(shù)以萬計(jì)的作答中提取出有價(jià)值的分析維度,獲得對(duì)(潛在)用戶的需求的洞察。

圖片7

從近萬份某3.15開放式問答題中提煉出的焦點(diǎn)話題

(2)內(nèi)容運(yùn)營(yíng)優(yōu)化

捕捉優(yōu)秀作者的寫作風(fēng)格

對(duì)于一些初入新媒體運(yùn)營(yíng)崗位的小伙伴來說,研究和模仿某些知名自媒體作者的寫作風(fēng)格很有必要,學(xué)習(xí)他們的寫作手法和套路可以使我們的文案寫作進(jìn)步神速。

要想對(duì)這些優(yōu)秀作者的行文風(fēng)格進(jìn)行深入研究,除了熟悉他們的行文脈絡(luò)和篇章結(jié)構(gòu),更要熟稔其遣詞造句上的套路(包括措辭特點(diǎn)、常用關(guān)鍵詞和情感傾向等),在模仿中逐步形成自己的寫作風(fēng)格。

如下圖,對(duì)咪蒙10幾篇具有代表性的文章進(jìn)行文本分析,從如下各種屬性的關(guān)鍵詞,再結(jié)合對(duì)咪蒙作品的一定了解,可以得出這樣的結(jié)論:咪蒙的文章里經(jīng)常進(jìn)行宣泄負(fù)面情緒,把粉絲心中想說卻不敢說的話酣暢淋漓的表達(dá)了出來,使萬千粉絲感同身受,被其感染;另一方面,她身邊的人常是被吐槽和分析的對(duì)象。

圖片8

對(duì)咪蒙10幾篇具有代表性文章進(jìn)行文本分析

新媒體熱點(diǎn)采集、追蹤及預(yù)測(cè)

基于大數(shù)據(jù)的文本分析能快速獲取全網(wǎng)具有趨勢(shì)傳播的關(guān)鍵詞,可以實(shí)時(shí)監(jiān)測(cè)傳播趨勢(shì)(包括全面研究閱讀數(shù)、評(píng)論數(shù)、分享量、傳播趨勢(shì)),并且通過分析內(nèi)容屬性和成功原因,預(yù)測(cè)內(nèi)容在未來的傳播潛力。

能夠嫻熟使用大數(shù)據(jù)的媒體人在未來的媒體行業(yè)才有立足之地,就如熱巢網(wǎng)CEO穆青所強(qiáng)調(diào)的:

在未來的媒體競(jìng)爭(zhēng)中,媒體人需要轉(zhuǎn)型為“內(nèi)容+技術(shù)”的復(fù)合型人才,一方面發(fā)揮自己在內(nèi)容創(chuàng)作中基于人性的獨(dú)立判斷和分析,另一方面需要借助大數(shù)據(jù)分析技術(shù)提升文章的傳播效果,進(jìn)行科學(xué)的人工傳播干預(yù)。

(3)口碑管理

基于大數(shù)據(jù)的文本分析能快速準(zhǔn)確的識(shí)別出企業(yè)/品牌/產(chǎn)品自身及競(jìng)爭(zhēng)對(duì)手在互聯(lián)網(wǎng)上的口碑變化,深度挖掘文本數(shù)據(jù)價(jià)值,在消費(fèi)者洞察、產(chǎn)品研發(fā)、運(yùn)營(yíng)管理、市場(chǎng)營(yíng)銷、品牌戰(zhàn)略方面,為管理決策提供科學(xué)依據(jù)。

圖片9

某餐飲品牌的口碑管理

(4)輿情監(jiān)測(cè)及分析

利用基于大數(shù)據(jù)的文本分析,我們可以清晰的知曉事件從始發(fā)到發(fā)酵期、發(fā)展期、高漲期、回落期和反饋期等階段的演變過程,分析輿情的傳播路徑、傳播節(jié)點(diǎn)、發(fā)展態(tài)勢(shì)和受眾反饋等情報(bào)。

圖片10

對(duì)滬文化廣播影視管理局的輿情監(jiān)測(cè)

(5)了解用戶反饋

通過基于大數(shù)據(jù)的文本分析,企業(yè)可以用正確的方式閱讀用戶散落在網(wǎng)絡(luò)上的“聲音”,企業(yè)可以直接讀懂自己用戶的想法,挖掘出用戶對(duì)于產(chǎn)品/服務(wù)的情緒和態(tài)度。比如,大數(shù)據(jù)文本分析可以回答如下問題:

  • 用戶喜歡的是它產(chǎn)品的哪一方面?
  • 比起其他公司的產(chǎn)品來,客戶是否更傾向他的產(chǎn)品?
  • 這些偏好會(huì)隨著時(shí)間發(fā)展和變化嗎?

本文偏向于科普大數(shù)據(jù)文本分析的基本知識(shí),下一篇將用一個(gè)生動(dòng)的案例來說明,大數(shù)據(jù)文本分析是如何在互聯(lián)網(wǎng)商業(yè)實(shí)踐中體現(xiàn)其巨大商業(yè)價(jià)值的。

 

作者:蘇格蘭折耳喵,微信公眾號(hào):運(yùn)營(yíng)喵是怎樣煉成的,個(gè)人微信:g18818233178),數(shù)據(jù)分析愛好者,擅長(zhǎng)數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。

本文由 @蘇格蘭折耳喵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

評(píng)論
評(píng)論請(qǐng)登錄
  1. 老師好,這個(gè)文本分析用的什么工具啊

    來自廣東 回復(fù)
    1. 新浪微熱點(diǎn)

      來自上海 回復(fù)
  2. 偏向于挖需求??

    回復(fù)
  3. 666 ??

    來自北京 回復(fù)