【干貨】用大數(shù)據(jù)文本挖掘,來洞察“共享單車”的行業(yè)現(xiàn)狀及走勢

49 評論 46577 瀏覽 177 收藏 34 分鐘

對于當(dāng)下共享單車在互聯(lián)網(wǎng)界的火熱狀況,筆者想從大數(shù)據(jù)文本挖掘的角度來做一番分析,主要是從海量的文本數(shù)據(jù)中找到有價(jià)值的訊息和觀察視角,透過文本挖掘了解共享單車相關(guān)的熱門話題和潛在趨勢。

2016年底以來,國內(nèi)共享單車毫無征兆的就火爆了起來,彼時(shí)一張手機(jī)截屏躥紅網(wǎng)絡(luò)—在這張截圖上,24個(gè)共享單車應(yīng)用的圖標(biāo)霸滿了整個(gè)手機(jī)屏幕,昭示著共享單車市場搶奪大戰(zhàn)的激烈和殘酷。

再看看一組來自易觀千帆的數(shù)據(jù):共享單車領(lǐng)域兩大巨頭—摩拜單車和ofo近一年的客戶端用戶增長數(shù)據(jù),二者的用戶增長曲線別無二致,都是一路高歌猛進(jìn),共享單車領(lǐng)域的火爆勢頭在短時(shí)間內(nèi)不會遏止。

同時(shí),在全國各大城市,在街頭巷尾,在居民小區(qū)和創(chuàng)業(yè)園區(qū),排滿了各種顏色的共享單車,仿佛一夜之間,共享單車如“千樹萬樹”的梨花一般,盛開到了泛濫成災(zāi)的地步了。

與此同時(shí),各種亂象也是接踵而至,觸目驚心:人為肆意毀壞單車、車身亂貼小廣告、街上隨意停放…

對于當(dāng)下共享單車在互聯(lián)網(wǎng)界的火熱狀況,筆者想從大數(shù)據(jù)文本挖掘的角度來做一番分析,主要是從海量的文本數(shù)據(jù)中找到有價(jià)值的訊息和觀察視角,透過文本挖掘了解共享單車相關(guān)的熱門話題潛在趨勢。

同時(shí),筆者也希望把一些常用的文本挖掘方法介紹給大家,以便大家在做產(chǎn)品和運(yùn)營的過程中能派上用場。對于文本挖掘的相關(guān)知識在這里就不贅述了,可以參考筆者之前寫的兩篇文章:《數(shù)據(jù)運(yùn)營|數(shù)據(jù)分析中,文本分析遠(yuǎn)比數(shù)值型分析重要?。ㄉ希?/a>、《在運(yùn)營中,為什么文本分析遠(yuǎn)比數(shù)值型分析重要?一個(gè)實(shí)際案例,五點(diǎn)分析(下)》。

以下是本文的行文路線圖和所涉及的文本挖掘方法。

1.數(shù)據(jù)采集和預(yù)處理

在數(shù)據(jù)采集部分,筆者想采集跟共享單車關(guān)聯(lián)性強(qiáng)的文本數(shù)據(jù),筆者沒有去寫爬蟲去爬取數(shù)據(jù),而是用到了XXX信息監(jiān)測”中的“數(shù)據(jù)導(dǎo)出”功能,根據(jù)設(shè)置的關(guān)鍵詞檢索邏輯,將所有涉及到共享單車的各類媒體文章的標(biāo)題、發(fā)布時(shí)間、媒體名稱、正文及正文分詞等數(shù)據(jù)下載下來,省去文本數(shù)據(jù)的清洗和預(yù)處理過程,直接進(jìn)行文本挖掘部分。

在這里,筆者選取了市場上主流的26個(gè)共享單車品牌,再加上關(guān)鍵字“共享單車”,形成如下的關(guān)鍵詞檢索邏輯

共享單車+(永安行 |ofo|小鳴單車 |小藍(lán)單車 |智享單車 |北京公共自行車 |騎點(diǎn) |奇奇出行 |CCbike |7號電單車 |黑鳥單車 |hellobike |酷騎單車 |1步單車 |由你單車 |踏踏 |Funbike單車 |悠悠單車 |騎唄 |熊貓單車 |云單車 |優(yōu)拜單車 |電電Go單車 |小鹿單車 |小白單車 |快兔出行 |摩拜單車 | 綠游GreenBike)

筆者選取2017-3-1~2017-6-30之間的數(shù)據(jù),經(jīng)由上面的檢索關(guān)鍵詞,可以得到我們想要的數(shù)據(jù),為節(jié)省時(shí)間,筆者僅選取“新聞”這一信息來源的文本數(shù)據(jù)作為分析對象,因?yàn)檫@部分的數(shù)據(jù)比較符合要求,包含的噪音較小。結(jié)果顯示如下:

導(dǎo)出數(shù)據(jù)之后,結(jié)果如下:

上面圈紅的字段是比較重要的分析維度,注意,導(dǎo)出的文章正文數(shù)據(jù)已經(jīng)經(jīng)過系統(tǒng)分詞去停用詞處理,直接省去了文本預(yù)處理所要耗費(fèi)的時(shí)間。

筆者再對其中的數(shù)據(jù)進(jìn)行去重處理—去掉“標(biāo)題/微博內(nèi)容”和“正文切詞”相同的部分,再從“發(fā)布日期”中提取出“月份”字段(用于后面的按月份分類文本),最終得到如下結(jié)果:

由此,原先的數(shù)據(jù)量從30W+的數(shù)據(jù)量減少到88,291條數(shù)據(jù)。

2 常規(guī)描述性數(shù)據(jù)統(tǒng)計(jì)

在正式的文本分析之前,筆者再對上述預(yù)處理后的數(shù)據(jù)進(jìn)行描述性分析,先從表層獲得這些數(shù)據(jù)的直觀印象。

首先是這4個(gè)月有關(guān)共享單車的文章數(shù)量的分布情況,如下圖所示:

可以看到,中間兩個(gè)月的發(fā)布文章數(shù)量最多,3月份的數(shù)量最少。

經(jīng)統(tǒng)計(jì),共有4056個(gè)媒體發(fā)布了跟共享單車有關(guān)的文章,在Excel中使用“數(shù)據(jù)分析-描述統(tǒng)計(jì)”對這些媒體發(fā)文數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),得出如下結(jié)果:

由此可見,在文章總數(shù)88,291篇、發(fā)文媒體4,056個(gè)的情況下,平均每個(gè)媒體的發(fā)文數(shù)約為22篇(21.66),其中的中位數(shù)為3篇,眾數(shù)為1篇,最大發(fā)文數(shù)為4,815篇。結(jié)合下面的直方圖,數(shù)量分布呈現(xiàn)明顯的左偏態(tài),主要集中在“0-300篇”這個(gè)區(qū)間內(nèi)(其中絕大部分為1篇)。

再來展示發(fā)文數(shù)量TOP30媒體的情況。排名榜首的是突襲網(wǎng),它是一個(gè)信息資訊“大雜燴”(上面有各類轉(zhuǎn)載過來的信息和琳瑯滿目的廣告,而且經(jīng)常不標(biāo)明信息來源……),其次是騰訊新聞、搜狐媒體平臺、新浪和網(wǎng)易這樣的綜合信息門戶網(wǎng)站。有點(diǎn)意外的是,漢豐網(wǎng)(www.kaixian.tv)的關(guān)于共享單車的發(fā)文量竟然排在第四位,它原名“開縣新聞網(wǎng)”,原本是一個(gè)地方性質(zhì)的媒體,于2010年成立,為把網(wǎng)站建設(shè)為報(bào)紙、電視、電臺“三網(wǎng)合一”的網(wǎng)絡(luò)媒體,漢豐網(wǎng)全面整合開縣主流媒體資源,單從發(fā)文信息量這點(diǎn)來說,該網(wǎng)站發(fā)展著實(shí)迅猛。

對于接下來的文本數(shù)據(jù)挖掘,筆者用到的是Python,以及常用的數(shù)據(jù)科學(xué)分析包,如jieba、sklearn、gensim、snownlp等。

3 關(guān)鍵詞提取

在這部分,筆者除了對上述經(jīng)分詞處理的正文文本進(jìn)行詞頻統(tǒng)計(jì)的同時(shí),還用到了信息檢索領(lǐng)域里的TF-IDF(Term Frequency–Inverse Document Frequency)關(guān)鍵詞統(tǒng)計(jì)方法:它用以評估一字/詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

由此可見,在提取某段文本的關(guān)鍵信息時(shí),關(guān)鍵詞提取較詞頻統(tǒng)計(jì)更為可取,能提取出對分析文本具有重要意義的關(guān)鍵詞。

根據(jù)上面的闡述,權(quán)重值大小與詞頻數(shù)不呈正比。對這88,291篇文章的關(guān)鍵詞提取和詞頻統(tǒng)計(jì)如下。

從上表可以看出,提取出的關(guān)鍵詞跟共享單車的關(guān)聯(lián)性很明顯,大致上有如下幾類:

  • 共享單車的品牌及其創(chuàng)始人:“小黃車”(ofo)、“摩拜單車”、“永安行”、“小鳴(單車)”、“胡瑋煒”、“戴威”等。
  • 投融資、資本運(yùn)作:“資本”、“投資”、“融資”、“戰(zhàn)略”、“資金”、“金融”、“商業(yè)”、“投資人”、“合伙人”等。
  • 政府對共享單車行業(yè)的監(jiān)管:”政府”、”規(guī)范”、”監(jiān)管”、”車管”、’城管“、‘機(jī)動(dòng)車”、”車道”、“秩序”、”政策”等。
  • 共享單車運(yùn)營相關(guān)(包括其中出現(xiàn)的問題):”投放”、”運(yùn)營”、”停車”、”支付”、”手機(jī)”、”擁堵”、”街頭”、”開鎖”、”地鐵站”、”環(huán)境”等。

然后根據(jù)這些詞的詞頻大小制作出共享單車形狀的個(gè)性化詞云,顯示如下:

關(guān)鍵詞的提取只是獲取這些文本訊息的“初の印象”,好戲還在后頭!

4 LDA主題模型

如果小伙伴們覺得上面筆者用關(guān)鍵詞劃分主題的做法有點(diǎn)扯淡,表示不服,那么筆者將拿出LDA主題模型來“回?fù)簟蹦悖僮髦?,先來簡單科普下LDA主題模型到底啥玩意。

由于LDA屬于概率主題模型的子類,那就先從“概率主題模型”說起:

概率主題模型(Statistical Topic Models)是一類從文本文檔中提取潛在語義信息的有效方法,近年來在文本挖掘領(lǐng)域得到了非常廣泛的應(yīng)用,在文本分類、信息檢索等相關(guān)領(lǐng)域取得了非常好的應(yīng)用效果。概率主題模型的基本原理認(rèn)為文檔是若干主題的混合概率分布,而每個(gè)主題又是一個(gè)關(guān)于單詞的混合概率分布,可以看作是文檔的一種生成模型。在概率主題的各項(xiàng)方法當(dāng)中,潛在狄利克雷分配模型(LDA model)是最為有效的模型之一。

LDA是一種典型的無監(jiān)督(也就是說,我們事先不知道每段文本里面說的是啥,每個(gè)文本沒有啥標(biāo)簽)、基于統(tǒng)計(jì)學(xué)習(xí)的詞袋模型,即它認(rèn)為一篇文檔是由一組詞構(gòu)成的一個(gè)集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。主題模型通過分析文本中的詞來發(fā)現(xiàn)文檔中的主題、主題之間的聯(lián)系方式和主題的發(fā)展,通過主題模型可以使我們組織和總結(jié)無法人工標(biāo)注的海量電子文檔。

類似Kmeans聚類,LDA模型的主題數(shù)也需要人工來確定,筆者在嘗試了多個(gè)主題數(shù)之后,確定了最終的主題數(shù),從下面的LDA可視化圖形可以看出,主題數(shù)為6時(shí),很多主題所涵蓋的關(guān)鍵詞出現(xiàn)嚴(yán)重的重疊,而分成10個(gè)主題后,情況得到好轉(zhuǎn),話題區(qū)分度尚能接受。

下圖“打印”出這10個(gè)主題及其下轄的20個(gè)關(guān)鍵詞,以“權(quán)重值*詞匯”的累加形式呈現(xiàn),各個(gè)權(quán)重值其實(shí)是該詞匯在指定主題下出現(xiàn)的概率大小,也可以理解為該詞對該主題的“貢獻(xiàn)”程度,比如TOP0中的“孩子”前的權(quán)重系數(shù)為0.008,表明在TOP0的話題下,“孩子”被“抽中”的概率為0.008。依次類推,各個(gè)詞語w在主題T下出現(xiàn)的概率分布稱之為詞分布,這個(gè)詞分布也是一個(gè)多項(xiàng)分布

對于上圖中的主題詞列表(表示與各個(gè)潛在主題最為相關(guān)的一些詞語),筆者還進(jìn)行了可以點(diǎn)擊交互的可視化展示,可以看到每個(gè)主題下的關(guān)鍵詞在該話題下及總的文本中的占比情況,從中可以看出某個(gè)詞對于該主題的重要程度如何。如下圖中TOP1下的關(guān)鍵詞“摩拜”,在該主題中出現(xiàn)的概率最大,重要性最高,紅色條柱代表它在TOP1下的比重,而藍(lán)色條柱的是它在整個(gè)文本(88,291篇文章)中的比重。某個(gè)詞對該主題重要性最顯著的情況是:藍(lán)色條柱更短、紅色條柱越長,這類詞更能對主題進(jìn)行區(qū)隔。

將上述TOP及其下轄的主題詞進(jìn)行整理,排除主題中的“噪音”(明顯跟主題不相關(guān)的詞匯異常點(diǎn)),根據(jù)其中的詞匯構(gòu)成(不僅僅是下列展示的20個(gè)關(guān)鍵詞,還包含后續(xù)的若干主題關(guān)鍵詞)及相關(guān)媒體報(bào)道,得出這10個(gè)主題的大致“內(nèi)涵”:

主題對應(yīng)的具體內(nèi)容如下表所示:

?5 文檔聚類

接下來采用的是基于譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)的文檔聚類,這部分的原理涉及到艱深的數(shù)學(xué)和算法知識,可能會引起小伙伴們的閱讀不適感,如果是這樣,請快速跳過,直接看后面的操作和結(jié)果。

先將待分析的文本經(jīng)TF-IDF向量化構(gòu)成了詞頻矩陣,然后使用Dhillon的譜聯(lián)合聚類算法(Spectral Co-clustering algorithm)進(jìn)行雙重聚類(Biclusters)。所得到的“文檔-詞匯”雙聚類(Biclusters)會把某些文檔子集中的常用詞匯聚集在一起,由若干個(gè)關(guān)鍵詞構(gòu)成某個(gè)主題。

在正式分析前,現(xiàn)將先前Excel中的正文分詞文本按月份進(jìn)行分類,將其單獨(dú)放進(jìn)所屬的月份文件夾下,操作如下圖所示。

最終的結(jié)果是,系統(tǒng)自動(dòng)形成的幾個(gè)文檔簇群,以及每個(gè)簇群下面最重要的TOP30關(guān)鍵詞。結(jié)果如下圖所示:

翻譯一下,說人話就是:

上面的每一個(gè)Bicluster類別都可以看做是一個(gè)話題,這里可以量化的看到每個(gè)話題在總文本中的成分占比(通過文檔數(shù)量或關(guān)鍵詞數(shù)量來判定),也可以了解該話題在這4個(gè)月上的成分分布情況。從上圖中可以看到,3-6月這四個(gè)月間的若干文本在Biclusters下分為4個(gè)話題??梢钥吹剑贐iclusters聚類的話題區(qū)分度明顯要好于上述的LDA主題模型,而且很神奇的是,類別相近的詞匯會自動(dòng)聚集在一個(gè)話題下,橫跨這8W+個(gè)文檔!

上面四個(gè)話題可以很容易的得出:

  • Biclusters類別0:共享單車相關(guān)的創(chuàng)投、資本和競爭相關(guān),行業(yè)的視角
  • Biclusters類別1:共享單車相關(guān)的行政監(jiān)管、整治,政府的視角
  • Biclusters類別2:共享單車運(yùn)營中出現(xiàn)的各種社會問題,社會的視角
  • Biclusters類別3:共享單車方面的負(fù)面信息,很多已經(jīng)上升到違法違規(guī),甚至觸犯刑法的層面了,法律的視角

由上面的數(shù)據(jù),還可以得到這4個(gè)話題在總文本中的占比情況。

從上圖可以看出,Biclusters類別1的比重最大,也就是4個(gè)月間關(guān)于共享單車行政監(jiān)管方面的文章較多,共享單車在市場運(yùn)營過程中的各類問題已然引起社會和有關(guān)部門的高度重視,各種行業(yè)亂象亟待整治和肅清。

將話題和月份進(jìn)行交叉分析,可以看到每個(gè)月份下關(guān)于共享單車報(bào)道的話題構(gòu)成情況。

比如,4月份有關(guān)共享單車的各種社會問題的媒體報(bào)道較多,而6月份對共享單車行業(yè)方面的報(bào)道居多。剩下的請小伙伴們看表說話,自行腦補(bǔ),我就不廢話咯。

6 情感分析

筆者在新浪微輿情“信息監(jiān)測”上觀察到,3~6月間關(guān)于共享單車的負(fù)面信息的走勢情況,顯然,這段時(shí)間內(nèi)的負(fù)面信息一直處于一個(gè)較高的水平,平均每天好幾W的負(fù)面新聞報(bào)道量。

緊接著,筆者使用機(jī)器學(xué)習(xí)的方法,對這8W多條文章的標(biāo)題進(jìn)行本地的情感分析,以便獲得媒體對共享單車報(bào)道的“情感傾向”的總體情況。

這里的“情感傾向”是以一個(gè)介于0~1之間的“情感極性值”來表征—如果某條評論的情感極性值越接近于0,說明它的負(fù)面情感傾向越明顯,越接近于1,說明它的正面情感傾向越明顯,而取值在0.5左右徘徊,這說明這種情感傾向不明顯,是為“中性”。筆者將情感傾向值的取值區(qū)間0~1細(xì)分為3個(gè)子區(qū)間,分別對應(yīng)不同的情感傾向。詳細(xì)操作請參考《用數(shù)據(jù)全方位解讀<歡樂頌2>》的2.1部分。

經(jīng)整理,將其制作成直方圖的形式呈現(xiàn):

從上面的直方圖可以看出,情感極性值絕大部分在0.2上的分布最多,而這個(gè)分值處在負(fù)面情感度的左端,很低的水平。根據(jù)上圖顯示,如果要給這段時(shí)間內(nèi)共享單車的總體情感傾向評級(5個(gè)級別,“極其負(fù)面”、“比較負(fù)面”、“中性”、“比較正面”、“極其正面”)的話,那么這個(gè)評級接近于“極其負(fù)面”。

以下是關(guān)于共享單車“三元”情感傾向的占比情況。

由此,再次印證了這段時(shí)間內(nèi)關(guān)于共享單車的各類負(fù)面報(bào)道不斷。

不過,話又說回來,這些都是來自媒體的聲音,而媒體有喜好報(bào)道負(fù)面訊息的傳統(tǒng),缺少了廣大網(wǎng)民發(fā)聲,對共享單車的輿情分析難免會存在信息失真。對此,筆者選擇了社會化媒體中具有重大影響力的新浪微博作為分析對象,對上面的網(wǎng)民情緒進(jìn)行總覽。關(guān)于社會化媒體方面的大數(shù)據(jù)分析,小伙伴們可以參看《如何利用Social Listening從社會化媒體中“提煉”有價(jià)值的信息?》

下面幾張圖來自新浪微輿情的“情緒地圖”部分,數(shù)據(jù)來源為新浪微博,為保持時(shí)效性,時(shí)間區(qū)間為近三日。

整體上看,與媒體的報(bào)道不同,絕大部分網(wǎng)民對于共享單車的“泛濫成災(zāi)”是持“喜悅”情緒的,由上面的LDA主題模型可以了解到,“便利出行”是形成這種贊許態(tài)度的原因之一。

7 LSI文本相似度索引

在上面的主題分析和文本聚類分析中,“融資”這個(gè)關(guān)鍵詞出現(xiàn)了若干次,它成功的攫取了筆者的眼球。為此,筆者想通過“融資”這個(gè)關(guān)鍵詞去找尋與其最相關(guān)的TOP20新聞標(biāo)題。在這里,筆者不采用直接通過關(guān)鍵詞查找的方法去尋找這些相關(guān)標(biāo)題,而是通過語義上的關(guān)聯(lián)性去尋找,也就是說,即使這些語句不包含“融資”二字,只要體現(xiàn)這個(gè)含義就是我要尋找的目標(biāo)。

鑒于此,筆者采用了基于LSI(Latent Semantic Index,潛在語義索引)的方法去查找文本相似度最高的20個(gè)語句,大致上比較文本向量化后的余弦夾角值(介于0-1之間),值越大,就代表相似度越高。詳細(xì)的原理推導(dǎo),小伙伴們可以自行Google腦補(bǔ)。

經(jīng)過分析,找到了跟“融資”語義最相關(guān)的20條新聞??梢钥吹?,里面很多沒有包含“融資”二字,但意義上都有體現(xiàn)資本運(yùn)作,比如“共享單車又掀起新一輪‘互掐’”這條新聞,里面有這樣的論述:“公開資料顯示,截至2017年4月,兩家公司共計(jì)融資總額超過10億美元,其中ofo剛剛完成D3輪融資,估值超過16億美元”,第二個(gè)“…ofo共享單車獲4.5億美元”,也是講的融資方面的新聞,剩下的相似語句以此類推。

從這些新聞標(biāo)題來看,共享單車領(lǐng)域的競爭不僅出現(xiàn)在用戶獲取和地盤爭奪上,在資本領(lǐng)域的也是刀光劍影,撕得不可開交。

由此可以看到,計(jì)算機(jī)通過LSI算法變得“聰明”了不少,在某種程度上,能“理解”自然語言了!

8 Word2vec

最后進(jìn)行的是基于Word Embedding的Word2vec詞向量分析,將正文分詞文本直接進(jìn)行詞向量模型訓(xùn)練,然后用來進(jìn)行關(guān)聯(lián)詞分析。

Word2vec是Word Embedding(詞嵌入)中的一種,是將文本進(jìn)行詞向量處理,將這些詞匯映射到向量空間,變成一個(gè)個(gè)詞向量(WordVector),以使這些詞匯在便于被計(jì)算機(jī)識別和分析的同時(shí),還具有語義上的關(guān)聯(lián)性,而不僅僅是基于詞匯之間的共現(xiàn)關(guān)系。類似的例子可以參看筆者之前的文章《用數(shù)據(jù)全方位解讀<歡樂頌2>》、以<大秦帝國之崛起>為例,來談大數(shù)據(jù)輿情分析和文本挖掘》。

首先,筆者對共享單車的2大巨頭—摩拜單車、ofo(小黃車)及其各自CEO的相關(guān)詞匯感興趣,分析結(jié)果如下:

從上圖可以看出,跟“胡瑋煒”、“摩拜”最相關(guān)的詞匯是“陳偉鴻”,是中央電視臺的主持人、記者、編輯、制片人,而胡瑋煒畢業(yè)于浙江大學(xué)城市學(xué)院新聞系,在《每日經(jīng)濟(jì)新聞》、《新京報(bào)》、《商業(yè)價(jià)值》等媒體做過記者和報(bào)道。也就是說,他們有著類似的從業(yè)經(jīng)歷,而且在6月25日的央視《對話》節(jié)目中,作為主持人的陳偉鴻與作為嘉賓的胡瑋煒有了交集。排在第二位的是她的對手ofo的CEO戴威。

值得注意的是,出現(xiàn)在關(guān)聯(lián)詞列表中的 “(王)曉峰”,曾任職Uber上海城市總經(jīng)理,是摩拜單車大股東李斌“邀請”來擔(dān)任摩拜CEO一職的,理由是媒體出身的胡瑋煒在經(jīng)營層面缺乏經(jīng)驗(yàn),由此業(yè)界傳聞“王曉峰是資本派來的管家”不脛而走。“曉峰”后面緊隨“昆侖決”,根據(jù)語境來講,這里的“昆侖決”應(yīng)該不是實(shí)指青海衛(wèi)視的那項(xiàng)世界職業(yè)搏擊賽事,而是用以隱喻共享單車行業(yè)競爭激烈的現(xiàn)狀,而且這種具有畫面感的語義聯(lián)想在媒體的報(bào)道中比較頻繁。

而ofo及其創(chuàng)始人最相關(guān)的詞依次是摩拜單車、胡瑋煒、(王)曉峰、CEO、小藍(lán)單車、悟空(單車)這些詞,多是對手。也涉及了其海外擴(kuò)張戰(zhàn)略的相關(guān)詞匯,如“全球”“海外”“投放”等。

而跟“摩拜”和“ofo”相關(guān)的詞多是反映這個(gè)行業(yè)現(xiàn)階段的特征,如“(圈地)投放”“(爭搶)用戶”、“入駐(城市、小區(qū)和國外等)”、“公司”、“數(shù)量”、“市場”和“大戰(zhàn)”等,還有它們的對手“小藍(lán)單車”“小鳴(單車)”、“哈羅單車”等。

加入“大戰(zhàn)”之后預(yù)測出來的關(guān)聯(lián)詞匯,就更能反映共享單車這個(gè)行業(yè)競爭的硝云彈雨了,在用戶和資本領(lǐng)域競爭的火藥味十足。

結(jié)語

在上面的各類文本挖掘中,反復(fù)出現(xiàn)一些關(guān)鍵詞和主題,如“亂象”、“監(jiān)管”、“愈演愈烈”等,給筆者一個(gè)最直觀的印象是“山雨欲來風(fēng)滿樓”,共享單車這個(gè)行業(yè)已經(jīng)到了“洗牌”的時(shí)間了:

經(jīng)過幾個(gè)月的火熱期,共享單車領(lǐng)域硝煙彌漫,競爭的號角此起彼伏,在共享單車將觸角伸向城市各個(gè)角落的同時(shí),各類社會亂象、人性考驗(yàn)和法治問題接踵而至,政府也被迫由先前的大力倡導(dǎo)到謹(jǐn)慎的規(guī)范引導(dǎo),行業(yè)的集聚特征也越來越明顯,或許可以大膽猜想一下,像之前的團(tuán)購、拼車和外賣這些領(lǐng)域,由資本推動(dòng),從“千帆競過”到“百團(tuán)大戰(zhàn)”,再是“三足鼎立”,最后“三家歸晉”?

欲知后事如何,我們姑且看之。

參考資料及分析工具:

  1. ?新浪微輿情,信息監(jiān)測、情緒地圖(數(shù)據(jù)采集及來源,情緒分析)
  2. 易觀千帆(APP用戶數(shù)據(jù))
  3. Gensim官網(wǎng),https://radimrehurek.com/genism
  4. PiotrBojanowski,EdouardGrave, Armand Joulin ,TomasMikolov,Enriching Word Vectors with Subword Information
  5. 勞鑫,馬寶君,張楠,萬巖,基于概率主題建模和深度學(xué)習(xí)的公眾輿情分析
  6. YoavGoldberg,wordembeddings—what, how and whither
  7. AnnaHuang,SimilarityMeasures for Text Document Clustering
  8. Python(jieba、snownlp、gensim、sklearn、wordcloud)

#專欄作家#

蘇格蘭折耳喵,微信公眾號:Social Listening與文本挖掘,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達(dá),喜歡研究各種跟數(shù)據(jù)相關(guān)的東東。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 這位老師做的工作感覺差不多和我上篇文章做的工作差不多了,老師我覺得你可以去發(fā)個(gè)SCI試試哈哈哈,想問一下老師還有比LDA更優(yōu)秀的主題建模模型推薦么?因?yàn)榘l(fā)現(xiàn)現(xiàn)在很多研究的文章都使用LDA,不知道能不能有些新意?所以想問問大牛關(guān)于這種現(xiàn)象的看法?謝謝解答,最近看到您的文章作為一個(gè)小小的本科生很有啟發(fā)!

    來自江西 回復(fù)
  2. 折耳貓老師,您好。我最近要帶領(lǐng)一群中學(xué)生做關(guān)于普通人群對于共享單車的安全意識的調(diào)查,您寫的一些資料,比如對于“安全”“法律”之類的數(shù)據(jù),對我很有幫助,雖然我不會用于其他的一些網(wǎng)絡(luò)宣傳途徑,只是用于教學(xué)上,也會備注您的名字,希望獲得您的授權(quán)。

    來自廣東 回復(fù)
    1. 好的,沒問題的。

      回復(fù)
  3. 好厲害,好像學(xué),不知道怎么開頭

    來自浙江 回復(fù)
  4. 很多圖感覺這里做出來的顏色撘配很好呀!厲害厲害

    回復(fù)
    1. 絕大部分是excel做的哦

      回復(fù)
    2. 好厲害呀,我也想做個(gè)類似的調(diào)查,能不能把使用的所有工具都分享下啊,從分詞開始

      回復(fù)
    3. 這得會coding才行。。。

      回復(fù)
  5. 感覺好像很厲害。。 但是仔細(xì)看了會覺得,似乎這個(gè)結(jié)論不需要大數(shù)據(jù)挖掘也可以得出啊。。 而且如果說數(shù)據(jù)更精確,也是由收集的信息有關(guān),但是1 這些新聞本身客觀度如何?準(zhǔn)確度如何? 2 新浪微博網(wǎng)民所發(fā)布的內(nèi)容,一是會來吐槽的網(wǎng)民本身占用戶數(shù)量比例多少?二是人一般都是更傾向于宣泄負(fù)面的情緒,而對體驗(yàn)良好的東西反而很少主動(dòng)去談,那這樣本身就會使判斷往負(fù)面傾斜。 我的意思是,洞察力似乎并不一定要由大數(shù)據(jù)得來,因?yàn)榇髷?shù)據(jù)本身的準(zhǔn)確性就不是精準(zhǔn)的。

    來自福建 回復(fù)
    1. 好吧,遇到真噴子了,那我,勉為其難的來逐條回應(yīng)你吧:1 寫這篇文章我只是舉一個(gè)實(shí)例,真正產(chǎn)生業(yè)務(wù)價(jià)值的數(shù)據(jù)分析文章,那是付費(fèi)的,涉及商業(yè)機(jī)密我不會放在這里的;2 如果你在公司做產(chǎn)品,做運(yùn)營,你無憑無據(jù),說這個(gè)產(chǎn)品應(yīng)該這么做,很符合常規(guī)嘛,同時(shí)會聽你的嗎?貌似對和實(shí)際對是兩碼事,需要用洞東西支撐的;3 我用的根本不是新浪微博的數(shù)據(jù),是各個(gè)主流媒體的長文章,不是網(wǎng)民發(fā)的,相對客觀;3 “洞察力似乎并不一定要由大數(shù)據(jù)得來,因?yàn)榇髷?shù)據(jù)本身的準(zhǔn)確性就不是精準(zhǔn)的”,恕我爆粗,大數(shù)據(jù)預(yù)測不準(zhǔn),難道你用屁股決策就準(zhǔn)嗎?現(xiàn)在天氣預(yù)報(bào)也是基于大數(shù)據(jù),谷歌利用大數(shù)據(jù)預(yù)測流感,而且準(zhǔn)確率相當(dāng)高,你每天購物的商品推薦,機(jī)票預(yù)訂,都跟大數(shù)據(jù)有關(guān)…如果因噎廢食,不能接受新事物,那還是回去做山頂洞人吧。。。

      來自上海 回復(fù)
    2. well , 首先我要說我不是來噴,只是提出質(zhì)疑進(jìn)行探討。。 然后您回答的前3點(diǎn)我接受,最后一點(diǎn),“因?yàn)榇髷?shù)據(jù)本身的準(zhǔn)確性就不是精準(zhǔn)的”這句確實(shí)是我考慮欠缺,商品推薦這些確實(shí)精準(zhǔn),但我這句話實(shí)際上想表達(dá)的意思是,洞察力是無法由大數(shù)據(jù)得來的,就像您第2點(diǎn)所說,大數(shù)據(jù)是個(gè)支撐,但不能成為出發(fā)點(diǎn),就好比科學(xué)家提出一個(gè)假設(shè),然后大量收集數(shù)據(jù)進(jìn)行驗(yàn)證,然而這個(gè)假設(shè)本身并不是從大數(shù)據(jù)得來的。也就是說大數(shù)據(jù)更適合做已有的產(chǎn)品的延伸優(yōu)化,很難有創(chuàng)新性的突破。另外您舉的幾個(gè)例子除了商品推薦,其他的都是作用于物,而非人。而對于任何產(chǎn)品而言,人才是核心,物只是輔助。最后您如何看待“許多公司、尤其是傳統(tǒng)公司還沒有從大數(shù)據(jù)項(xiàng)目獲得預(yù)期的結(jié)果,或者還沒有獲得相當(dāng)高的投資回報(bào)率。大數(shù)據(jù)投入后收入平均僅僅增加了區(qū)區(qū)的6%。”?

      來自福建 回復(fù)
    3. 補(bǔ)充一句,我并不是要全盤否定數(shù)據(jù)分析,我也是在學(xué)習(xí)中,但也許因?yàn)檫€是菜鳥,很多東西考慮不周,看到有疑惑的地方就直接評論了,如果有冒犯之處請見諒。

      來自福建 回復(fù)
    4. 首先,我也要說聲對不起,有些表達(dá)是過激了。我想說的是,有批判性思維很好,但當(dāng)對某個(gè)領(lǐng)域不太熟的時(shí)候,不要輕易下結(jié)論,尤其是給予否定。其次,我從來都不否定人的主觀能動(dòng)性,人腦思考的重要性,諾基亞的slogan“科技以人為本”,說是要用科技服務(wù)人類,同時(shí)人類在科技的使用上居于主導(dǎo)地位,這是沒有任何問題的。我想說的是,大數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代的基礎(chǔ)設(shè)施,是原料不是結(jié)果,如何分析,從中獲得洞察,那才是具有科技含量的,我不知道你如何定義洞察,我理解的洞察是,只要能從雜蕪的、無規(guī)律的數(shù)據(jù)和信息獲得有價(jià)值的信息,發(fā)現(xiàn)人腦難以處理和分析出的東西,那就是insight,那就是洞察,當(dāng)今很多實(shí)例已經(jīng)印證了這一點(diǎn),我不想再舉實(shí)例了。最后說一句,“許多公司、尤其是傳統(tǒng)公司還沒有從大數(shù)據(jù)項(xiàng)目獲得預(yù)期的結(jié)果,或者還沒有獲得相當(dāng)高的投資回報(bào)率。大數(shù)據(jù)投入后收入平均僅僅增加了區(qū)區(qū)的6%”,這不是大數(shù)據(jù)或者數(shù)據(jù)挖掘的不足,很多時(shí)候是使用人的無能。

      來自上海 回復(fù)
    5. 嗯,是的,在量的方面人腦的處理遠(yuǎn)不及計(jì)算機(jī),這點(diǎn)確實(shí)可以很好的彌補(bǔ)人腦的不足。我的質(zhì)疑確實(shí)提的過早,還是先去好好學(xué)習(xí)一下。感謝前輩愿意探討~

      來自福建 回復(fù)
  6. 看到結(jié)語,才懂你想表達(dá)什么。。?!按髷?shù)據(jù)文本挖掘”是本身太高深,還是所挖掘的文本太凌亂~~

    來自四川 回復(fù)
    1. 我也看不懂你說的是什么,你這是想褒還是想貶,文章要表達(dá)什么,開篇已經(jīng)說明白了,你翻回再仔細(xì)看看?

      來自上海 回復(fù)
  7. 反正看不懂,就知道很高大上

    來自廣東 回復(fù)
    1. 哈哈

      回復(fù)
  8. 贊一個(gè)

    來自湖北 回復(fù)
  9. 應(yīng)屆生打算做運(yùn)營,給看跪了。。。

    來自浙江 回復(fù)
    1. 別害怕,我寫的這些又不是運(yùn)營必須掌握的

      來自上海 回復(fù)
  10. 非常好!大部分都是正在用的,大神如有時(shí)間,能不能更多介紹下“譜聯(lián)合聚類算法”這個(gè)的使用?謝謝!

    來自北京 回復(fù)
    1. 這個(gè)非常艱深,我看的是國外的外文文獻(xiàn),到現(xiàn)在還是初窺門徑,建議重視它的實(shí)用價(jià)值和具體操作,背后的數(shù)學(xué)原理還是。。。

      來自上海 回復(fù)
  11. 你這數(shù)據(jù)分析技能點(diǎn)都點(diǎn)這么高了?給跪!

    來自北京 回復(fù)
    1. 沒事,一年前這塊我也不會呢

      來自上海 回復(fù)
    2. 沒事,工作中的需求會推著你往前走的 ??

      來自上海 回復(fù)
    3. 求推薦一些入門書籍和網(wǎng)站吧,我最近也在自學(xué)這個(gè)方面呢

      來自北京 回復(fù)
    4. 書看得少,國外的博客看得多,根據(jù)工作實(shí)際去有針對性的檢索有價(jià)值的信息就好。

      來自上海 回復(fù)
    5. 國外的博客?翻墻看是嘛

      來自北京 回復(fù)
    6. 是的,用翻墻軟件即可

      來自上海 回復(fù)
  12. 給跪,雖然有些地方不懂,但是感覺很高大上呢~

    來自北京 回復(fù)
    1. 等工作或?qū)W習(xí)中有實(shí)際需求了,你就懂了

      來自上海 回復(fù)
  13. @折耳貓,往往人人噴子多,caff的回復(fù)真誠些

    來自北京 回復(fù)
    1. 沒事,就是希望大伙們多提點(diǎn)意見,我好改進(jìn)嘛,哈哈

      回復(fù)
  14. 大神,我服,順便問下大神的python技能點(diǎn)到多少了?

    來自湖北 回復(fù)
    1. 沒多少,入門不到一年,但每天都用

      回復(fù)
  15. 厲害了,但是看不懂

    來自江蘇 回復(fù)
    1. 有實(shí)際需求了,你就會看懂了

      回復(fù)
  16. 哎,運(yùn)營都像搞研究一樣

    回復(fù)
    1. 干啥都得琢磨和研究,不然就會像驢子拉磨一樣,干N年沒有實(shí)際提升,一直路徑依賴。

      回復(fù)
  17. 恕我直言,你的結(jié)論是啥?

    回復(fù)
    1. 結(jié)論文末有哈,這篇文章的本意是想介紹常用的文本挖掘方法,至于案例,那是插播的??????

      回復(fù)
  18. 感覺理論和工具都挺充實(shí)的,但是結(jié)論的話似乎可以再挖掘下!

    來自上海 回復(fù)
    1. 結(jié)論其實(shí)仔細(xì)看完就會不言自明,既然都這么說,我有時(shí)間把結(jié)尾再修繕下??????

      回復(fù)
  19. 嗯,非常好,我反正看不懂 ??

    來自重慶 回復(fù)
    1. ??????

      回復(fù)
  20. 這廣告插播插的。。。

    來自上海 回復(fù)
  21. 喵~ 你微信號多少,來一發(fā)。 ??

    來自廣東 回復(fù)
    1. g18818233178 ??

      來自上海 回復(fù)