我從騰訊那“偷 了”3000萬(wàn)QQ用戶數(shù)據(jù),出了份很有趣的獨(dú)家報(bào)告!

18 評(píng)論 29205 瀏覽 30 收藏 10 分鐘

兩周前,做的一個(gè)項(xiàng)目需要模擬一批用戶評(píng)價(jià)數(shù)據(jù),如果想讓數(shù)據(jù)看著真實(shí)點(diǎn),那就得使用隨機(jī)的用戶昵稱和頭像啊。要是頭像或者昵稱全都差不多,那別人一看就看出來這是做的數(shù)據(jù)了。

于是乎我就寫了個(gè)從我QQ空間開始的蜘蛛網(wǎng)式的爬蟲程序,程序斷斷續(xù)續(xù)的運(yùn)行了兩周。總共爬到了騰訊3000萬(wàn)QQ數(shù)據(jù),其中有300萬(wàn)包含用戶(QQ號(hào),昵稱,空間名稱,會(huì)員級(jí)別,頭像,最新一條說說內(nèi)容,最新說說的發(fā)表時(shí)間,空間簡(jiǎn)介,性別,生日,所在省份,城市,婚姻狀況)的詳細(xì)數(shù)據(jù)。

目前已經(jīng)爬到我的第7圈好友(depth=7)共3000萬(wàn)數(shù)據(jù),目前的瓶頸在家里的網(wǎng)速和電腦的配置上。 最快的時(shí)候爬取速度達(dá)到一天500W新Q數(shù)據(jù)。

沒圖,我說個(gè)毛線??!

目前數(shù)據(jù)量為2G左右。

1f87bddb7eab9d3dde5115a398e90b9b

再看看,我根據(jù)這份數(shù)據(jù)生成的一些有趣的統(tǒng)計(jì)圖(數(shù)據(jù)量太大了一次加載到內(nèi)存中直接報(bào)內(nèi)存不夠了,所以下面的統(tǒng)計(jì)數(shù)據(jù)只取了depth值小數(shù)據(jù)較完整約80W的數(shù)據(jù)):

內(nèi)存已經(jīng)爆了,不能怪我。 誰(shuí)贊助臺(tái)服務(wù)器吧~~

5dc30cb7b4e9987436fb134d3b61ea78

大家一般都在啥時(shí)候發(fā)說說呢?

從圖中看出一天最冷門的時(shí)候是凌晨4點(diǎn),這時(shí)全國(guó)正在睡覺的人最多。 大家最亢奮的是晚上10點(diǎn)到11點(diǎn),人們都喜歡睡前看看別人的空間,發(fā)條說說。中午12點(diǎn)左右也有一波小高峰

一會(huì)我再統(tǒng)計(jì)張中國(guó)人習(xí)慣幾點(diǎn)起床,幾點(diǎn)吃飯,幾點(diǎn)睡覺的圖吧

f11367cd8eb5c33bdbd9a1f249e2a710

中國(guó)人都喜歡在幾月生小孩呢?

最熱門的是1月份和10月份,最冷門的是4月份。10月份生小孩的多好理解,一年忙差不多了,天氣也不冷不熱正是生小孩的好時(shí)候。 但1月份最高且和2月落差很大有點(diǎn)不好理解,那么冷的天生不怕凍嗎? 我估計(jì)是1月份也快過年了,以前沒聚一起的好不容易聚一起了,就容易沖動(dòng),沖動(dòng)就啪啪啪。 4月份生日的最少也好理解,中國(guó)人不喜歡4這個(gè)數(shù)字唄。 大數(shù)據(jù)有意思吧??! 我覺得太好玩了,后面還有很多呢。

bda64a70a9c0e4b5e4c18c76177b67dc

這是我目前爬取的用戶所在地分布

你能猜出我是哪的了嗎?前四名分別為:廣東,湖南,四川,江蘇。 沒錯(cuò),我就是湖南的! 湖南人在廣東打工的超級(jí)多,這也能理解為什么廣東排名第一了。江蘇是我上學(xué)的地方,有點(diǎn)琢磨不透的是四川和我非情非故的居然排第3名,我的朋友們,你們是誰(shuí)播的種?站出來! 還有一種可能,四川人交際能力全國(guó)第一,我平時(shí)在重慶小面吃飯,四川人確實(shí)特別,說話語(yǔ)速那個(gè)快啊,聲調(diào)那個(gè)高啊。受不了!

a2cc0e95784d1108ec59afac1944d62b

數(shù)據(jù)人群的年齡分布

一不小心就暴漏了我的年齡,沒錯(cuò)。我就是那個(gè)最高值的1990年;從目前的數(shù)據(jù)來看,無(wú)論是分布地區(qū)以及年齡階段與我的關(guān)聯(lián)還非常大,隨著數(shù)據(jù)量的不斷增加這種關(guān)聯(lián)會(huì)逐漸變小,統(tǒng)計(jì)圖也會(huì)逐漸接近全國(guó)用戶的真實(shí)情況。真想弄幾臺(tái)服務(wù)器分布式搞起,估計(jì)一周就能爬上億的簡(jiǎn)單數(shù)據(jù)。 單靠我的筆記本和家里超爛的網(wǎng)速達(dá)到這個(gè)目標(biāo)還很遠(yuǎn)。

d80eb483302aba03d699b0d4adf4cab5

數(shù)據(jù)人群性別分布

男比女足足多了23%的人數(shù),我分析認(rèn)為實(shí)際差距應(yīng)該是不大的,但女生在設(shè)置QQ空間訪問權(quán)限時(shí)普遍要比男生的高。所以我爬取的數(shù)據(jù)中男生居多。

a2f29fd0a877e68eaeb5927257c8225a

下面系列圖是根據(jù)一些“關(guān)鍵字”在說說中出現(xiàn)的頻率統(tǒng)計(jì)出來的,相當(dāng)有意思。

圖說股市

在知乎“能利用爬蟲技術(shù)做到哪些很酷很有趣很有用的事情?” 有一個(gè)google實(shí)習(xí)的哥們@Emily L爬了400億條tweet也做了很多有趣的分,其中提到一篇關(guān)于利用twitter上人的心情來預(yù)測(cè)股市的論文()很有意思。另附我在該問題下的答案“用爬蟲監(jiān)測(cè)她(他)的知乎動(dòng)態(tài)”,僅做技術(shù)玩樂,求別再噴我猥瑣了。

如果當(dāng)我們擁有海量的QQ空間最新說說,和sina微博數(shù)據(jù)。我想,用它們來做一些股市或者其它方面的分析預(yù)測(cè)是可行的,準(zhǔn)確度應(yīng)該也是非常高的。我接下來可能會(huì)考慮去做這件有趣的事情。

將股票中的關(guān)鍵字做海量數(shù)據(jù)分析,比如會(huì)得出當(dāng)日討論股票排行榜。進(jìn)而能得到海量討論股票的用戶,再通過市場(chǎng)的實(shí)際反饋找出股票上漲及下跌的正相關(guān)因子,再對(duì)這些海量用戶進(jìn)行分析計(jì)算得出最靠譜股票推薦大神排行榜。對(duì)這些用戶分級(jí),分優(yōu)先度及抓取密度來拿數(shù)據(jù)。用這些數(shù)據(jù)分析出哪些是靠譜的股票肯定靠譜。

09dcc3abe4755dfb2b77d8c7a2aba10b

群眾討論最多的明星排行榜,還是很靠譜的。

另附我抓的明星QQ號(hào)吧,純屬娛樂,自辯真假。有些空間確實(shí)有很多生活私照。

張杰QQ:419998

花千骨的趙麗穎QQ:427794

謝娜QQ:500746

楊冪QQ:456773

周杰倫QQ:332661

6ced1b9b8c6f7f88232591e7315a4ab6

最為用戶喜愛的手機(jī)品牌

4ff8ecb4c6d0ccc52b4811a834d13926

人們最喜歡談?wù)摰幕ヂ?lián)網(wǎng)公司,阿里之所以這么低估計(jì)是大家都喜歡叫它淘寶或者天貓吧。 取這么多名字,自討苦吃。

db9e568ff989dc8b777c7bbfca86738d

?QQ空間中討論的最為頻繁的社交平臺(tái)排行榜。

246fb3d2cc5e90af253cd3ec168ebafd

生活的統(tǒng)計(jì)圖

愛>恨; 開心>傷心; 笑聲>嘆氣聲; 吃貨很多; 誰(shuí)特么說中國(guó)不幸福了,這滿滿的都是正能量數(shù)據(jù)啊。

e88dd93028569e54d6ac8ae8855e258a

好了,其實(shí)還可以做很多其它的分析。如果大家有什么有趣的數(shù)據(jù)分析想知道的,那就給我留言吧。

技術(shù)不多說了,程序不難,多線程數(shù)據(jù)庫(kù)操作卻是把我搞苦了。還好,現(xiàn)在程序差不多穩(wěn)定了。過程也是很有意思的,有空我再寫個(gè)程序升級(jí)過程中的那些趣事吧。我覺得一個(gè)美妙的程序一定是高度模擬現(xiàn)實(shí)的,就像飛機(jī)模仿蜻蜓,雷達(dá)模仿蝙蝠一樣。 這次的程序設(shè)計(jì)就是模擬的工廠的生產(chǎn)線。附個(gè)設(shè)計(jì)圖吧。

0c33f55ead328bd3b87735592f9254da

35e371272fc4d3caecfc627c2a61bc61

1a6930b67e11d79c5079c06a5e3829c8

 

作者:hi@wuxinsheng.com

來源:博客園

原文地址:http://www.cnblogs.com/cinser/p/4656386.html

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 看到第二段就懶得看了,出生月份表現(xiàn)出幾月份生小孩?人們都是幾月份啪啪啪就當(dāng)場(chǎng)生下來嗎?1月份和10月份出生人口最多,那應(yīng)該往前推9~10個(gè)月才是人們“生小孩”活動(dòng)的最高峰。

    來自上海 回復(fù)
  2. :mrgreen: 樓主好厲害!

    來自重慶 回復(fù)
  3. 樓主,他們很多空間都是需要訪問權(quán)限的,請(qǐng)問你的爬蟲是怎么繞過這些權(quán)限的呀?

    來自重慶 回復(fù)
  4. 求問爬數(shù)據(jù)的方法

    來自廣東 回復(fù)
  5. 能不能分析一下玩LOL的人數(shù) 性別 年齡 段位 等一些信息呢

    來自上海 回復(fù)
  6. 求問大神,這些數(shù)據(jù)要怎么爬啊 ?? ??

    來自廣東 回復(fù)
  7. 明顯的一篇軟文貼

    來自廣西 回復(fù)
  8. 有誰(shuí)知道樓主是用什么工具做的統(tǒng)計(jì)圖?。?/p>

    來自福建 回復(fù)
  9. 你們就看不出來這是一篇營(yíng)銷貼嗎!

    來自北京 回復(fù)
  10. 你QQ多少啊,能交流一下嗎?

    來自廣東 回復(fù)
  11. 現(xiàn)在很多女性空間都要有訪問權(quán)限的,這些也能爬?

    來自廣東 回復(fù)
  12. 我居然在第一個(gè)圖里看到了十年長(zhǎng)白!
    眼睛要瞎了臥槽(#?Д?)
    盜墓黨無(wú)處不在。。。關(guān)注點(diǎn)啊喂
    不過這個(gè)技能好棒!
    好想get一下(●—●)

    來自江蘇 回復(fù)
  13. 求源碼,哈哈! :mrgreen:

    來自四川 回復(fù)
  14. 求爬蟲源碼

    來自浙江 回復(fù)
  15. 只是對(duì)數(shù)據(jù)分析,這個(gè)不太明白,希望懂得前輩能指點(diǎn)一下,我的觀點(diǎn)錯(cuò)誤,或是一起討論一下.謝謝大家

    來自北京 回復(fù)
    1. ? 一編輯 原來的話都沒了, 原話: 樓主是1990的,好友也是接近1990這個(gè)年齡段的,以此輻射出去的好友,是否也都是這個(gè)上下的.用這份數(shù)據(jù)來統(tǒng)計(jì),表現(xiàn)中國(guó)人的 行為,特性 是否不太準(zhǔn)確.

      來自北京 回復(fù)
  16. 太牛了,我也想學(xué)這門神技,請(qǐng)問小白學(xué)習(xí)這種技能該怎么起步

    來自北京 回復(fù)
  17. 臥槽 這個(gè)分析牛逼了。。。。。。。。

    來自安徽 回復(fù)