「用戶研究」基于游客評論的消息價(jià)值挖掘?qū)嵗?/h2>
10 評論 3022 瀏覽 26 收藏 14 分鐘

編輯導(dǎo)語:讀懂客戶對于用戶研究工作過程中極為重要,本文作者分享了基于游客評論的消息價(jià)值來做用戶研究的相關(guān)內(nèi)容,講述了游客研究的過程和步驟等,感興趣的一起來看看。

上一篇文章從理論與工具推薦的層面分享了如何從評論中讀懂用戶,這篇文章我將從頭到尾將用戶評論的獲取再到內(nèi)容分析的樣貌全盤呈現(xiàn),以期對評論分析有需求的同學(xué)們提供更加詳盡的幫助。沒閱讀上一篇文章的可以點(diǎn)擊我的個(gè)人主頁查看。

為了使行文更加便捷,本篇分享我將以評論豐富、反爬措施寬松的旅游行業(yè)舉例。假如我是馮小剛電影公社的管理者,面對各個(gè)OTA平臺海量的游客評論,開始了自己的游客研究之旅。

一、評論內(nèi)容的獲取

據(jù)瀏覽發(fā)現(xiàn),景區(qū)的在線評論集中在幾個(gè)頭部OTA網(wǎng)站,分別為攜程、去哪兒、途牛、美團(tuán)四家。

第一步先將景區(qū)在這個(gè)平臺的網(wǎng)址搜集下來,分別進(jìn)行評論內(nèi)容的采集,文中以

攜程網(wǎng)為例。

第二步打開Python,編寫代碼(網(wǎng)上也有很多可以直接調(diào)用的代碼),配置好你所需要爬取的頁數(shù)范圍以及所期待爬取的字段,開始采集即可。如若需要攜程評論爬取的源碼,評論區(qū)留言即可。

倘若是非編程手段,這里以后羿采集器為例,安裝好后,輸入網(wǎng)址,點(diǎn)擊智能采集,等待加載頁面,在頁面底部編輯將不需要的字段剔除,文中只保留了用戶id、評論內(nèi)容與評論時(shí)間。

在爬取完后,生成excel表格,打開表格可以見到已經(jīng)采集完畢,共得到3900條數(shù)據(jù),至此數(shù)據(jù)采集階段結(jié)束。

二、第二步、預(yù)處理評論數(shù)據(jù)

分詞與去除停用詞。打開Rost cm6軟件,發(fā)現(xiàn)其只支持文本格式的內(nèi)容,于是將excel表導(dǎo)出為文本格式。而后在Rost cm6的界面中打開分詞窗口,選中待處理文件,選擇結(jié)果保存位置,選擇停用詞表,而后確定運(yùn)行即可。

三、第三步、詞頻分析與情感分析

同樣的是Rost cm6,打開詞頻分析窗口,選擇上個(gè)步驟中輸出的分詞結(jié)果,確定分詞,得到按照詞頻排序的excel文件,將其按照景區(qū)風(fēng)格、娛樂體驗(yàn)以及情緒感知三個(gè)維度分類,歸結(jié)出以下表格。

由表中內(nèi)容可以見得在游客心目中馮小剛電影公社的風(fēng)格維系在與景區(qū)定位相一致的水平上,即由高頻詞中的“芳華”、“南洋”、“民國”、“穿越”等詞語相對應(yīng),也能看到“海南”、“??凇贝淼胤教厣膮^(qū)位詞被反復(fù)提及。

其次游客對景區(qū)的娛樂體驗(yàn)的感知?jiǎng)t絕大部分集中在“拍照”上,“服裝”、“衣服”、“旗袍”等代入式的拍照體驗(yàn)也表明景區(qū)給游客帶來的價(jià)值多是單向互動(dòng)的環(huán)境塑造,同時(shí)從“門票”、“票價(jià)”中可以看到游客對于景區(qū)的門票售賣頗為看重,另外“晚上”、“夜景”頻繁出現(xiàn),表明相較于白天景區(qū),晚上的馮小剛電影公社具有另一番特色。

故而被游客在意,而景區(qū)內(nèi)的“冰雪”大世界、“海洋館”也給游客留下不少印象;此外,高頻詞的情緒感知維度中,見到“值得”、“好玩”、“好看”、“方便”等詞頻現(xiàn),同時(shí)也見到“不值”、“收費(fèi)”、“太貴”、“便宜”等對立的感知,可以見得在不同群體的判別標(biāo)準(zhǔn)中,票價(jià)與景觀具有截然不同的作用效果。

到這一步就可以實(shí)現(xiàn)了最基礎(chǔ)的文本分析即詞頻分析,接著為了使詞頻更加可視化,將其導(dǎo)入到上一篇文章推薦的詞云網(wǎng)站中生成詞云。

依舊是在Rost cm6域內(nèi),打開情感分析窗口,導(dǎo)入未分詞的評論文本,一鍵分析即可,經(jīng)過簡單處理,得到馮小剛電影公社的游客評論情緒如下。可以發(fā)現(xiàn)游客對馮小剛電影公社的評論中積極情感比例大于消極情緒的比例,總體情感偏向大致呈現(xiàn)積極態(tài)勢,而且情感的極端性不顯著。

四、第四步、語義網(wǎng)絡(luò)共現(xiàn)

方便起見,本文只在Rost cm6中生成最基礎(chǔ)的語義網(wǎng)絡(luò)圖,生成過程不做贅述,與上文提到的詞頻分析、情感分析相似。得到語義網(wǎng)絡(luò)圖如下(本文將其按照積極情緒與消極情緒分別制作了語義網(wǎng)絡(luò)圖)。

1. 積極情緒

馮小剛電影公社游客表達(dá)的積極情緒多為好看、好玩、適合等,這些積極情感的產(chǎn)生與景區(qū)目的地的服務(wù)定位相合。

從積極情緒的語義網(wǎng)絡(luò)結(jié)構(gòu)圖可以看出,“拍照”作為中心節(jié)點(diǎn)之一,與“旗袍”、“衣服”、“服裝”等詞匯密切聯(lián)系,同時(shí)“晚上”也是頻繁提及的詞匯,證明拍照這個(gè)娛樂活動(dòng)在游客的體驗(yàn)中摻雜著諸多與景區(qū)內(nèi)的服飾提供服務(wù)聯(lián)系密切。

再看到以“建筑”為中心節(jié)點(diǎn)的詞群,“南洋”、“民國”、“穿越”、“年代”等詞匯頻現(xiàn),與景區(qū)的建筑風(fēng)格完全相一致;另外看到以“芳華”為中心詞的詞匯則多和“公社”、“馮小剛”、“拍攝”、“小院”聯(lián)系起來,可以認(rèn)為在景區(qū)里,芳華小院的地位不輕,多為游客關(guān)注且產(chǎn)生好感。

2. 消極情緒

游客在消極情緒中多展露出懊惱、遺憾等。其產(chǎn)生原因與門票價(jià)格與景區(qū)內(nèi)容管理以及游客自身認(rèn)知等多種因素相關(guān)。

景區(qū)門票價(jià)格的設(shè)置不合理導(dǎo)致了游客體驗(yàn)情緒不佳,致使產(chǎn)生消極情感。從消極情緒的語義網(wǎng)絡(luò)結(jié)構(gòu)圖(右圖)中可以看到,以“門票”與“景區(qū)”兩個(gè)關(guān)鍵中心詞為節(jié)點(diǎn)的詞群中表現(xiàn)出了主要的消極情感。

例如“門票”連接的“還要”“不便”二詞反映出園區(qū)重復(fù)收費(fèi)等現(xiàn)象嚴(yán)重,激發(fā)游客的不滿也使游客感覺游玩體驗(yàn)的完整性被破壞;另外“景區(qū)”連接著的 “不大”“票價(jià)”等詞有效反映出對于部分產(chǎn)生消極情緒的游客來說,馮小剛電影公社的面積以及內(nèi)容不夠豐富,使得游客產(chǎn)生景區(qū)較小值不回票價(jià)的遺憾情感。

五、第五步、主題分析

本文使用到基于TF-IDF方法的主題詞聚類分析,TF意為詞頻,用來測算詞條出現(xiàn)的頻率,而IDF意為反文檔頻率,用來衡量前述詞條的普遍重要性。

其計(jì)算公式為:

TF-IDF=TF×IDF

對已經(jīng)經(jīng)過調(diào)查上述數(shù)據(jù)預(yù)處理的在線評論文本另存為xlsx格式導(dǎo)入Python,進(jìn)行LDA主題模型構(gòu)建,采用TF-IDF方法,反復(fù)試驗(yàn)調(diào)整詞匯表為最高閾值為0.4(即該詞在超過40%的評論里出現(xiàn)過則作廢,認(rèn)為其無特征意義),聚類主題數(shù)為4個(gè)。最后得到的在線評論主題詞分類結(jié)果如下表所示。

主題詞聚類的結(jié)果顯示,游客對馮小剛電影公社的感知因素有主打特色、娛樂設(shè)施、基礎(chǔ)設(shè)施與情緒感知四個(gè)方面。可以認(rèn)為較有多面性與復(fù)雜性。并且主題聚類結(jié)果與上文詞頻分析人腦歸結(jié)出的三個(gè)類別高度重合,很符合預(yù)期。

馮小剛電影公社的景點(diǎn)之一即攝制場地,表現(xiàn)在游客體驗(yàn)中頻繁表現(xiàn)出的“芳華”以及“電影”、“公社”以及“小院”中,證明其在游客游覽的過程中產(chǎn)生了重要影響且評價(jià)多為“不錯(cuò)”。

同時(shí)可以從第二個(gè)主題中看到游客游玩體驗(yàn)到的“拍照”、“穿越”感、“民國”、“南洋”以及“天氣”是為其娛樂過程中著重在意的感知,備受青睞和關(guān)注。

另外從游客的情緒感知即第四個(gè)主題可以看到“性價(jià)比”、“不值”,“喜歡”、“一般般”等對立的情緒感知,可以認(rèn)為對不同人群來說,馮小剛電影公社的體驗(yàn)不盡相同,或?yàn)閮r(jià)格敏感型顧客與否的區(qū)別,景區(qū)可以從價(jià)格歧視的角度出發(fā)設(shè)置票型以顧及不同消費(fèi)者群體的感受。

六、第六步、給結(jié)論

經(jīng)過上述游客評論分析,作為馮小剛電影公社的管理者就可以總結(jié)出以下結(jié)論以支撐在運(yùn)營與管理側(cè)的改良。

  1. 其一,改善景區(qū)入口服務(wù)。景區(qū)應(yīng)該制定合理的定價(jià)策略,例如考慮到價(jià)格接受程度不同的游客的體會,實(shí)現(xiàn)差別定價(jià)策略。在景區(qū)可以接受的范圍內(nèi),對不同游客如普通游客、學(xué)生、幼兒、老年人等定義不同的價(jià)格標(biāo)準(zhǔn)。再有就是錯(cuò)峰調(diào)整票價(jià),節(jié)假日等旅游旺季不妨全價(jià),而在旅游淡季時(shí),票價(jià)就需要折扣,同時(shí)不同渠道的購票也應(yīng)該差別定價(jià)。同時(shí)將套票的價(jià)格放低,鼓勵(lì)游客購買優(yōu)惠的套票,以鼓勵(lì)游客體驗(yàn)景區(qū)全貌。
  2. 其二,景區(qū)內(nèi)應(yīng)該增加導(dǎo)游類服務(wù)人員,為游客游玩時(shí)長做加持,使不愛拍照的游客也能在工作人員的講解下沉浸在景區(qū)的風(fēng)格與建筑背后的故事中,減少類似不值票價(jià)的情感出現(xiàn),使此類游客的游玩時(shí)長加長。
  3. 第三,加強(qiáng)市場監(jiān)管,提升旅游服務(wù)質(zhì)量。對市場監(jiān)管的加強(qiáng),嚴(yán)格規(guī)范馮小剛電影公社景區(qū)內(nèi)的各類市場行為,對提供的服務(wù)、產(chǎn)品的質(zhì)量制定一套統(tǒng)一的標(biāo)準(zhǔn)。堅(jiān)決禁止宰客的行為出現(xiàn),尤其對景區(qū)內(nèi)的服裝租賃服務(wù)加強(qiáng)監(jiān)管。以一系列的措施解決游客游玩中遇到的問題,減少游客的消極情緒產(chǎn)生。

 

本文由 @ 我叫徐知魚 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自 unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

評論
評論請登錄
  1. 想問一下最后一個(gè)主題分析和詞頻維度是一個(gè)東西嗎?我可以根據(jù)自己的目標(biāo)自行進(jìn)行主題分類嗎?

    來自湖北 回復(fù)
    1. 文中的主題分析是基于TF-IDF方法做的,如果你需要自己手工做主題分類的話,不需要采用這個(gè)算法,或者僅將它的結(jié)果作為輔助即可。商業(yè)分析相對來說不需要像學(xué)術(shù)那么嚴(yán)絲合縫,能表達(dá)清楚自己的觀點(diǎn)即可。

      來自浙江 回復(fù)
  2. 作者有公眾號嘛,想追更了

    來自北京 回復(fù)
  3. 您好,我又來了。請問在分詞中,處理的數(shù)據(jù)是否需要包括日期和用戶名呢?主要分析內(nèi)容是否是指評論內(nèi)容呢?感謝您的分享。

    來自湖南 回復(fù)
    1. 日期和用戶名是不包含的。分詞的對象就是評論內(nèi)容,所以將Excel轉(zhuǎn)化為文本文件導(dǎo)入rost cm6的前一步,需要把id和日期字段刪除。沒有在文中體現(xiàn)很抱歉,但是您問出這個(gè)問題應(yīng)該也意識到正確的操作辦法了,贊。

      來自浙江 回復(fù)
    2. 感謝您的指導(dǎo)。后來意識到了,修改過后的分析內(nèi)容更符合需求了。

      來自湖南 回復(fù)
  4. 您好,請問一下,在第三步“確定分詞,得到按照詞頻排序的excel文件,將其按照景區(qū)風(fēng)格、娛樂體驗(yàn)以及情緒感知三個(gè)維度分類,”這里,按照維度分類是需要手動(dòng)在EXCEL里分類的嗎?

    來自湖南 回復(fù)
    1. 是的,需要手動(dòng)劃分,我省略了這個(gè)步驟,因?yàn)檫@屬于是主題分析的一部分了,本文中的緯度劃分是基于學(xué)術(shù)屆的一些共識/結(jié)論進(jìn)行劃分的,這種景區(qū)的感知維度一般來說就包含他們仨。而在上一篇文章中我主要介紹了基于算法模型的「lda主題聚類」,本文中也有用到lda主題聚類分析,并且和這里的維度分類較為擬合。

      來自浙江 回復(fù)
  5. 很有幫助的用戶研究方法!大范圍的評論確實(shí)可以反映出存在和需要改進(jìn)的問題。

    來自云南 回復(fù)
    1. 謝謝你的認(rèn)可??

      來自浙江 回復(fù)