分析了130W字的數(shù)據(jù),我知道了用戶在想什么

10 評論 22713 瀏覽 160 收藏 20 分鐘

本文作者將介紹一種通過分析用戶產(chǎn)生的內(nèi)容了解用戶最近關(guān)注的內(nèi)容,最終幫助改善產(chǎn)品的方法。

網(wǎng)上流傳著張小龍的對于喬老爺?shù)囊欢卧u價:

喬布斯最厲害的地方是什么?他說喬布斯1秒鐘就能變成白癡,這是他最厲害的地方。那馬化騰呢?他大概需要5秒鐘。而我差不多需要10秒鐘。

這里的“白癡”并非字面意思,而是指產(chǎn)品經(jīng)理在使用產(chǎn)品,構(gòu)思產(chǎn)品功能的時候,能拋棄掉自己固有的思維身份,用同理心將自己轉(zhuǎn)變?yōu)橐粋€產(chǎn)品的典型用戶,站在用戶的角度去思考問題,而且能夠在多種不同的用戶角色之間進(jìn)行切換。

外人看來好似十分簡單,然而真正有過產(chǎn)品工作經(jīng)驗的人都知道,要拋棄掉自己過往的思維習(xí)慣,將自己轉(zhuǎn)化為一個用戶是多么的困難!

更多的時候我們通過場景分析,來假設(shè)自己是產(chǎn)品在某個場景下的特定用戶,或通過用戶畫像來使得用戶輪廓清晰起來,但也很難做到短時間內(nèi)將自己轉(zhuǎn)化為一個用戶,真正以用戶的思維去體驗和思考產(chǎn)品。

“白癡”不易,但用戶在想什么還是要知道啊?

怎么辦!?

How to do?

常見了解用戶的方法有用戶調(diào)研,用戶訪談,用戶研究等等

除此之外,常見的還有一種——數(shù)據(jù)分析,通過數(shù)據(jù)分析來揣摩用戶的心里,猜測用戶的需求。

本文要介紹的數(shù)據(jù)分析和提前在功能上線前埋點,再分析埋點數(shù)據(jù)來輔助產(chǎn)品決策有所不同。

這類的數(shù)據(jù)通常是用戶產(chǎn)生的內(nèi)容,沒辦法直接獲取可用的量化數(shù)據(jù),特別有幾十萬的文本內(nèi)容數(shù)據(jù)的時候,面對一大段一大段的文字,根本無從下手。

而僅僅分析內(nèi)容的平均字?jǐn)?shù)顯然意義不大,針對內(nèi)容本身的分析才更有價值。

下面介紹一種通過分析用戶產(chǎn)生的內(nèi)容了解用戶最近關(guān)注的內(nèi)容,最終幫助改善產(chǎn)品的方法。

三步走:

  1. 收集用戶的內(nèi)容數(shù)據(jù)
  2. 提取內(nèi)容關(guān)鍵詞
  3. 分析關(guān)鍵詞,運用于產(chǎn)品

第一步:收集用戶的內(nèi)容數(shù)據(jù)

首先,第一步,收集用戶數(shù)據(jù),但用戶哪里來呢?

既然最終是為了改善產(chǎn)品,從群眾中來,到群眾中去的思路肯定是對的,作為醫(yī)療行業(yè)的產(chǎn)品經(jīng)理,舉幾個醫(yī)療行業(yè)的例子。

1. 點評數(shù)據(jù)

有產(chǎn)品的銷售可能產(chǎn)生點評,這里的產(chǎn)品不是指單某一款app或商品,而是引用了經(jīng)濟(jì)學(xué)中對于產(chǎn)品的定義。

產(chǎn)品是指能夠供給市場,被人們使用和消費,并能滿足人們某種需求的任何東西,包括有形的物品、無形的服務(wù)、組織、觀念或它們的組合。

醫(yī)療行業(yè)中醫(yī)生為病人提供的線下診療服務(wù),線上咨詢服務(wù),私人醫(yī)生服務(wù)等等就是一系列的產(chǎn)品。(這里沒有貶低醫(yī)療從業(yè)人員的意思,僅僅是從字面意義上進(jìn)行解釋)

當(dāng)用戶使用完這類產(chǎn)品的時候,會對產(chǎn)品進(jìn)行評價,例如線上掛號,線下診療后對醫(yī)生的態(tài)度,診療效果進(jìn)行評價,供其他用戶進(jìn)行參考。

這類點評內(nèi)容數(shù)據(jù)可以供其他用戶在購買該產(chǎn)品前能有參考的憑據(jù),同時產(chǎn)品人員可以利用點評的好評中評差評等數(shù)值的數(shù)據(jù)來優(yōu)化列表的排序,讓更多優(yōu)質(zhì)的醫(yī)生得到曝光。

2. 咨詢數(shù)據(jù)

方才提及的醫(yī)療行業(yè)的產(chǎn)品中,線上咨詢服務(wù)不僅僅會產(chǎn)生點評的內(nèi)容數(shù)據(jù),還會產(chǎn)生真實的醫(yī)生和患者之間一對一的交流的內(nèi)容數(shù)據(jù)。

這些內(nèi)容數(shù)據(jù)在一些較大的互聯(lián)網(wǎng)醫(yī)療公司的產(chǎn)品中會通過一定的隱私處理后對公眾開放,例如在PC端百度搜索“喉嚨痛吃什么好”會出來非常多相關(guān)的咨詢記錄,包括39健康網(wǎng),快速問醫(yī)生等知名醫(yī)療網(wǎng)站的數(shù)據(jù)。

這類咨詢內(nèi)容的記錄能幫助一些遇到相同問題的用戶更快的解答自己的疑惑,提高產(chǎn)品內(nèi)容的豐富度,增加用戶粘性。

另一方面,公開這類數(shù)據(jù)讓百度,360等搜索引擎的爬蟲抓取,有助于提高網(wǎng)站的權(quán)重,在用戶搜索相關(guān)內(nèi)容的時候更容易出現(xiàn)在靠前的結(jié)果,相當(dāng)于給平臺新增了流量來源。

3. 社區(qū)醫(yī)患雙方的討論數(shù)據(jù)

醫(yī)療行業(yè)的社區(qū)也會產(chǎn)生內(nèi)容數(shù)據(jù),患者和患者針對某個疾病進(jìn)行討論或分享自己的治病經(jīng)歷,醫(yī)生和醫(yī)生針對某些疑難雜癥進(jìn)行討論,醫(yī)生給患者進(jìn)行科普的健教類文章而引起的醫(yī)患雙方的互動等等。

例如在PC端,糖尿病垂直社區(qū)的“甜蜜家園”以及微醫(yī)的“醫(yī)言堂”等,雖然一直對微醫(yī)的“醫(yī)言堂”模式抱有懷疑的態(tài)度,但不可否認(rèn),醫(yī)患雙方也是會產(chǎn)生一些社區(qū)討論的內(nèi)容數(shù)據(jù)。

如何獲取數(shù)據(jù)?

類似上述這類的內(nèi)容型數(shù)據(jù),該如何獲???

最簡單直接的方法就是找研發(fā)哥哥直接導(dǎo)數(shù)據(jù),或提個后臺需求,自己導(dǎo)出到Excel表格查看。

但有些時候,自己的產(chǎn)品本身數(shù)據(jù)量不大或沒有數(shù)據(jù),或本身沒有后臺且只是想導(dǎo)出小部分進(jìn)行分析怎么辦?

那就用“爬蟲”唄,自家產(chǎn)品沒有數(shù)據(jù),就去爬競品的數(shù)據(jù);自家有但不好意思老是麻煩開發(fā),那自己爬一些需要的數(shù)據(jù)分析。

作為產(chǎn)品經(jīng)理,本身也不會寫爬蟲代碼,怎么辦?

這里介紹一款軟件——“八爪魚采集器”,即使不會寫代碼,也能快速的獲取自己想要的數(shù)據(jù)?。ㄟ@軟件也是平時沒事逛簡書,在龍瀟Shana的文章中發(fā)現(xiàn)的,強(qiáng)烈安利)

通過八爪魚和一些公開數(shù)據(jù),我們就能獲取到針對單個疾病的咨詢內(nèi)容的數(shù)據(jù),這樣我們就能分析用戶在某類疾病下普遍會去咨詢醫(yī)生的內(nèi)容是什么。

再舉個栗子,每周周五的時候,經(jīng)常對著咨詢數(shù)據(jù)的周報發(fā)愣——這周數(shù)據(jù)為何變動怎么大?大漲或大跌了,發(fā)生了什么事情??

這時候通過八爪魚去爬一些異常波動科室最近2-3天的數(shù)據(jù),或指定某天波動特別明顯的數(shù)據(jù),這樣就能知道用戶在這段異常波動期間哪些咨詢內(nèi)容成為了熱點?例如流感在咨詢的內(nèi)容中被提及的次數(shù)多了,我們就能知道最近流感高峰期來了。

第二步:提取內(nèi)容關(guān)鍵詞

回顧下我們的三個步驟:

  1. 收集用戶的內(nèi)容數(shù)據(jù)
  2. 提取內(nèi)容關(guān)鍵詞
  3. 分析關(guān)鍵詞,運用于產(chǎn)品

在第一步的收集用戶內(nèi)容數(shù)據(jù)中,我通過采集數(shù)據(jù)的軟件收集了用戶在某天的咨詢問題,共15859條。

通過第一步抓取用戶的數(shù)據(jù),成功獲得

《帶有大量文本內(nèi)容的數(shù)據(jù)表格》 X1

僅將其中的咨詢內(nèi)容單獨拎出,就已經(jīng)有130W字的內(nèi)容數(shù)據(jù)。

但是這些內(nèi)容數(shù)據(jù)長短不一且數(shù)據(jù)量并不小,問的問題也不盡相同,例如:

  • “片子是術(shù)前的還是術(shù)后復(fù)查的。術(shù)前膝關(guān)節(jié)是什么癥狀?目前膝外側(cè)是痛還是腫?偶發(fā)的還是一直持續(xù)的?”
  • “謝謝主任的講解,那到底現(xiàn)在能不能做手術(shù)呢?畢竟是腫瘤也不能拖?!?/li>
  • “孩子年齡很小,夜里踢被子很容易胃部受涼而出現(xiàn)上述癥狀!建議多喝白開水、、少吃多餐、肚臍貼,必要時去醫(yī)院看看”

如果僅僅針對一個句子一個句子進(jìn)行分析,不單沒法量化,而且需要花費大量的時間,咋辦?

一句一句分析的辦法肯定行不通,這時候就要祭出提取關(guān)鍵詞大法了。

什么是關(guān)鍵詞?

通過關(guān)鍵詞提取軟件,將上述的大段文本切成不同的詞匯,再找出關(guān)鍵詞,將關(guān)鍵詞按照詞頻和權(quán)重進(jìn)行排序,就知道哪些詞匯是用戶提及最多,最重要的。

這里可能要問,什么是關(guān)鍵詞?

高中時候我們都作過閱讀理解,關(guān)鍵詞就是在一篇閱讀理解中反復(fù)出現(xiàn)或比較重要的詞匯。

這里我們有兩個概念:

  1. 詞頻,用來描述出現(xiàn)的次數(shù);
  2. 權(quán)重,用來表示這個詞匯的重要程度。

例如“片子是術(shù)前的還是術(shù)后復(fù)查的。術(shù)前膝關(guān)節(jié)是什么癥狀?目前膝外側(cè)是痛還是腫?偶發(fā)的還是一直持續(xù)的?”,切詞之后就變成“片子,是,術(shù)前,還是,術(shù)后,復(fù)查…”

“術(shù)前”的詞頻為2,因為它出現(xiàn)了兩次,但是“術(shù)前”詞匯的權(quán)重呢?這里無法直接給出,但是在統(tǒng)計學(xué)上,越常詞匯的權(quán)重就越小,例如“我,你,他”,同理,不常見的詞匯,例如“腫瘤”,權(quán)重就會較大。

不同詞匯在不同的語境下的重要程度是不同的,假如一篇專門講述手術(shù)的文章,和一篇專門講述糖尿病的文章都有提及“糖尿病”這個詞匯,詞匯“糖尿病”明顯對于講述糖尿病的文章是更重要的,但是詞匯“糖尿病”在不同的文章中的權(quán)重又相同。

這時候如何突出關(guān)鍵詞“糖尿病”詞匯對于糖尿病文章的重要性呢?

為了思考這個問題,逛了逛知乎,在上面看到了一種關(guān)鍵詞提取的理論——TF-IDF法

TF-IDF=詞頻(TF)*逆文檔頻率(IDF)

原理這里不展開講,我們可以簡單粗暴的理解為一個關(guān)鍵詞的重要程度可以這樣判斷

關(guān)鍵詞重要程度=詞頻*權(quán)重

提取關(guān)鍵詞的方法理論比較復(fù)雜,但我們不需要了解背后的機(jī)制,使用一些切詞軟件就能幫我們提取出大段內(nèi)容的關(guān)鍵詞,而且還含有詞頻和權(quán)重(至于這些切詞軟件是否使用的是TD-IDF的理論不得而知,暫且認(rèn)為是吧。)

這樣,通過切詞軟件,我們終于從一堆長長的文本中提取出了關(guān)鍵詞。

得到 《帶有詞頻及權(quán)重的關(guān)鍵詞表格》 X1

導(dǎo)出Excel表格將關(guān)鍵詞的詞頻和權(quán)重分?jǐn)?shù)相乘再倒序排列,這樣我們能知道哪些詞匯是出現(xiàn)頻率高且權(quán)重大的關(guān)鍵詞。

第三步:分析關(guān)鍵詞,運用于產(chǎn)品

經(jīng)過前面兩步,我們手中已經(jīng)有了

  • 《帶有大量文本內(nèi)容的數(shù)據(jù)表格》 X1
  • 《帶有詞頻及權(quán)重的關(guān)鍵詞表格》 X1

對著這兩個表格,我們能做些什么?

先說個題外話,前陣子有位仁兄抓取了大量民謠的歌詞,統(tǒng)計了歌詞中常出現(xiàn)的詞匯,同時使用了騰訊文智和哈工大社會計算與信息檢索研究中心的自然語言處理模塊,對這些詞匯的感情色彩進(jìn)行分析。

得出了如下結(jié)論:

在我的統(tǒng)計中,出現(xiàn)最多的幾個意象是:再見,姑娘,夜空,孤獨,快樂。

如果把民謠擬人化,那應(yīng)該是一個喜歡南方的北京小伙子,覺得世界很讓他無語,但罵歸罵,到底是對生活有希望的,憧憬著明天,在春天感到快樂,在冬天感到孤獨,沒有女朋友,但有幾個糾纏不清的前女友,經(jīng)常和她們見面,見面的地方可能是成都,昆明,南京,上海,武漢。

也許你認(rèn)為這些關(guān)鍵詞最大的用戶無非就是寫篇文章,博眾人一笑,成為閑暇的談資,那就錯了!

既然這些關(guān)鍵詞從真實的用戶中來,那么通過關(guān)鍵詞也能了解用戶在想什么,也能用于產(chǎn)品中,例如運用于點評,咨詢,文章,內(nèi)容推薦等等。

關(guān)鍵詞的運用場景

1. 點評

如果內(nèi)容數(shù)據(jù)從點評中來,那么可以篩選出好評,中評,差評的內(nèi)容,分別提取出對應(yīng)評價的關(guān)鍵詞。

在產(chǎn)品功能上,提供點評的便捷輸入的標(biāo)簽,而標(biāo)簽的內(nèi)容,就可以是用戶常常使用的詞匯(既你提取出的關(guān)鍵詞)。

提供這些便捷輸入能提升點評的體驗,也能促使用戶點評,提高總體的點評量。

2. 文章

一篇好文章最怕的是沒有閱讀量,但單單靠標(biāo)題黨絕對不是長久之計,真正從內(nèi)容下功夫才是王道。

在對的場景中將用戶感興趣的文章推薦給他是提升閱讀量的有效方法。

以醫(yī)療舉例,在皮膚科的專題頁面中,通過分析皮膚科用戶的咨詢數(shù)據(jù),了解用戶最常咨詢的關(guān)鍵詞是“濕疹”、“皮疹”、“皮炎”、“皮損”等等,那么文章的選題就可以從這些用戶常咨詢的關(guān)鍵詞入手來展開。

3. 咨詢主訴內(nèi)容的填寫

通過分析咨詢內(nèi)容,在用戶填寫自己病情的時候,顯示出來對應(yīng)的關(guān)鍵詞標(biāo)簽,讓用戶點擊快速輸入,減少用戶手動輸入的內(nèi)容。

既能幫助用戶實現(xiàn)更高效的輸入方式,同時通過標(biāo)簽的提醒,也能提醒用戶自己是否存在同樣的癥狀,在描述癥狀是更加的仔細(xì),提高咨詢填寫主訴的質(zhì)量。

4. 建立疾病和對應(yīng)的同義詞庫

腦洞再大的時候(這里可能不科學(xué),純屬腦洞),我們?nèi)シ治瞿硞€疾病下用戶的關(guān)鍵詞是什么,將這些描述癥狀的關(guān)鍵詞設(shè)為疾病的同義詞,讓兩者建立關(guān)聯(lián)關(guān)系。

這樣做的好處在于,讓用戶在搜索某個疾病的癥狀的時候,例如牙疼,那么就能通過這些描述癥狀的關(guān)鍵詞去找到對應(yīng)的疾病名,提示用戶可能的疾病是什么,提高搜索的準(zhǔn)度。

最后:三步驟總結(jié)

至此,通過三步驟:

(1) 收集用戶的內(nèi)容數(shù)據(jù),我們獲得了

《帶有大量文本內(nèi)容的數(shù)據(jù)表格》 X1

(2)通過提取內(nèi)容關(guān)鍵詞,我們獲得了

《帶有詞頻及權(quán)重的關(guān)鍵詞表格》 X1

(3)通過分析關(guān)鍵詞,運用于產(chǎn)品,我們可能會獲得

  • 點評功能 X 數(shù)據(jù)上漲 ↑
  • 資訊功能 X 數(shù)據(jù)上漲 ↑
  • 咨詢功能 X 數(shù)據(jù)上漲 ↑
  • 搜索功能 X 數(shù)據(jù)上漲 ↑

關(guān)鍵詞運用的場景還能有很多,可以慢慢挖掘,歡迎交流。

推薦閱讀

《有了手機(jī)號快捷登錄,還需要密碼登錄嗎?》

《賬號體系設(shè)計:如何解決手機(jī)號二次使用導(dǎo)致的賬號問題》

 

本文由 @朱利安 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 如何與搜索結(jié)合?知道了大部分用戶的意圖,然后呢?

    來自浙江 回復(fù)
  2. 干的漂亮 :mrgreen: (M-7)

    來自河南 回復(fù)
  3. 切詞軟件用的是哪個?求大神推薦~

    來自浙江 回復(fù)
    1. 同求

      回復(fù)
  4. 詳細(xì)干貨,好文,馬住!

    來自廣東 回復(fù)
  5. 爬取網(wǎng)上的信息,可以詳細(xì)說一下嗎,都爬取哪些網(wǎng)站,什么類型的,我是為了提高自己官網(wǎng)的內(nèi)容吸引力和醫(yī)生咨詢的水平

    回復(fù)
    1. 好大夫的咨詢記錄,官網(wǎng)上有公開的,可以直接爬

      來自廣東 回復(fù)
  6. 干貨滿滿,謝謝樓主啦。

    回復(fù)
  7. 想請問下關(guān)鍵詞提取軟件哪一款比較好用?

    來自北京 回復(fù)
    1. 目前中文的關(guān)鍵詞提取軟件沒發(fā)現(xiàn)比較好用的,目前用的是在逛知乎的時候看到的一款——光年關(guān)鍵詞提取軟件,騰訊的文智聽說也還不錯。

      來自廣東 回復(fù)