數(shù)據(jù)分析實(shí)戰(zhàn)|人人都是產(chǎn)品經(jīng)理網(wǎng)站(中篇):讀者視角

8 評論 8325 瀏覽 109 收藏 16 分鐘

本篇作者將以讀者視角來分析這些數(shù)據(jù),從4萬多篇文章中,找出對于讀者最有幫助最有價(jià)值的文章。enjoy~

一. 前篇回顧

前篇《數(shù)據(jù)分析實(shí)戰(zhàn)|人人都是產(chǎn)品經(jīng)理網(wǎng)站(上篇):平臺視角》中,詳細(xì)地介紹了從人人都是產(chǎn)品經(jīng)理官網(wǎng)(以下簡稱人人)返回的首頁數(shù)據(jù)中,以平臺運(yùn)營者的角度來分析:網(wǎng)站目前的內(nèi)容是否可以支持網(wǎng)站的正常運(yùn)營。

到本篇?jiǎng)t會換一個(gè)視角,以讀者視角來分析這些數(shù)據(jù),從4萬多篇文章中,找出對于讀者最有幫助最有價(jià)值的文章。當(dāng)然一千讀者有一千個(gè)哈姆雷特,每個(gè)人對文章的價(jià)值都有著自己的判斷,而本文只是從數(shù)據(jù)統(tǒng)計(jì)的角度來分析那些對大多數(shù)讀者能夠有幫助的文章。解決的問題如下:

Q1.?閱讀量、收藏量、點(diǎn)贊量和評論量分別的Top10是哪些文章

Q2. 有哪些文章值得收藏?

Q3. 有哪些作者值得關(guān)注?

二. 各種Top 10

在Youtube的各種節(jié)目中,各種盤點(diǎn)Top 10節(jié)目很受觀眾歡迎。所以這里也按俗套劇情先偷個(gè)懶,直接把上一期整理好的數(shù)據(jù)排排坐,分別按照閱讀量、收藏量、點(diǎn)贊量和評論量來進(jìn)行排個(gè)序,看看各種Top的文章是哪些。還沒有學(xué)習(xí)的同學(xué)也可以對本篇點(diǎn)擊一波收藏,之后可以導(dǎo)航深入學(xué)習(xí)。

1. 閱讀量

(1)99.2萬閱讀量

(2)70.9萬閱讀量

(3)60.1萬閱讀量

(4)56.8萬閱讀量

(5)53.1萬閱讀量

(6)52.5萬閱讀量

《產(chǎn)品經(jīng)理崗位職責(zé)》

  • 發(fā)表:2012-08-06
  • 作者:老曹
  • 分類:業(yè)界動態(tài)

(7)52.1萬閱讀量

(8)52.0萬閱讀量

(9)51.5萬閱讀量

(10)51.0萬閱讀量

2. 收藏量

(1)4274收藏量

(2)2407收藏量

(3)2407收藏量

(4)2298收藏量

(5)2237收藏量

(6)2120收藏量

(7)1932收藏量

(8)1832收藏量

(9)1779收藏量

(10)1774收藏量

3. 點(diǎn)贊量

(1)2181次點(diǎn)贊

(2)1886次點(diǎn)贊

(3)1730次點(diǎn)贊

(4)1556次點(diǎn)贊

(5)1406次點(diǎn)贊

(6)1330次點(diǎn)贊

(7)1328次點(diǎn)贊

(8)1111次點(diǎn)贊

(9)1026次點(diǎn)贊

(10)1002次點(diǎn)贊

4. 評論量

(1)1014次評論

(2)848次評論

(3)723次評論

(4)456次評論

(5)373次評論

(6)319次評論

(7)307次評論

(8)236次評論

(9)234次評論

(10)233次評論

三. 篩選優(yōu)質(zhì)文章

對我來說,一年收藏個(gè)幾百篇文章到我的材料庫中是非常正常的,之前的這點(diǎn)Top 10根本不夠看,但如果拉長相應(yīng)的名單又會有很多投機(jī)取巧的文章混在其中。人人經(jīng)過這么多年的發(fā)展,已經(jīng)沉淀了不少佳作。所以,作為一個(gè)有點(diǎn)貪婪的人,如何把這些優(yōu)質(zhì)內(nèi)容一網(wǎng)打盡,是我接下來想要考慮的事情。

1. 四個(gè)屬性分布

還是之前的數(shù)據(jù),我們先再次看一下所有文章屬性中,有價(jià)值的數(shù)據(jù)總覽:

評論這一項(xiàng)相比于其它屬性來說,因?yàn)橹捣植嫉帽容^極端,比較適合按類型進(jìn)行區(qū)分,大于25%的文章評論數(shù)量為0,大于25%的文章數(shù)量評論數(shù)大于3,評論數(shù)1~2的小于50%。依次可以將其由數(shù)值型屬性轉(zhuǎn)化為分類類型。因?yàn)榇a上的處理,這里由低到高的命名為Low,Mid,High。這樣我們可以將原本需要XYZ三個(gè)軸再加上空間上點(diǎn)大小的三維散點(diǎn)圖轉(zhuǎn)化為二維。

根據(jù)上面的View(瀏覽量),like(點(diǎn)贊),bookmark(收藏?cái)?shù)),comment(點(diǎn)評數(shù))分別做為散點(diǎn)圖的點(diǎn)取值,x軸,y軸,及點(diǎn)的類型,繪制如下:

2. 屬性分析

(1)從上圖中,憑肉眼觀察就能發(fā)現(xiàn)約95%以上的文章都集中在左下角的紫色方塊區(qū)域內(nèi);

(2)雖然紫色方塊區(qū)域都是以High為主的藍(lán)色居多,但這是將4萬篇文章堆疊在一起的結(jié)果,展示上效果有些問題,但從整體比例來說High,Mid,Low也都應(yīng)該主要集中在這塊區(qū)域;

(3)實(shí)際對四個(gè)屬性的相關(guān)性求解也是兩兩之間基本都在0.5以下。雖然是正相關(guān),但屬于比較弱的相關(guān),所以并不能以某一個(gè)屬性做為單一的換算比例來“消元”;

(4)四萬多條數(shù)據(jù)擠在紫色小方塊里,可以在一定程度上將他們在此區(qū)間看成是均勻分布的;可以暫時(shí)不考慮四個(gè)屬性之間的加權(quán)問題。

3. 評分計(jì)算公式

所以綜上所敘,大致的計(jì)算流程如下:

(1)為了四個(gè)屬性的值能夠相加起來比較方便,所有值都需要按照[0,1]之間進(jìn)行等比換算,讓他們能夠保持在一個(gè)維度;

(2)為了避免某些文章的屬性因?yàn)橹颠^大產(chǎn)生干擾,需要進(jìn)行一定的修飾。當(dāng)文章屬性中的值已經(jīng)大于其它95%的文章時(shí),則只取1。排除掉此部分的值之后,再根據(jù)第1條進(jìn)行換算;

(3)經(jīng)過上述處理之后,四個(gè)值相加則為此篇文章的打分,取值范圍一定是[0~4]。

4. 結(jié)果一覽

經(jīng)過上面如此一番折騰,還能夠打4分的文章還有438篇之多。但對比于全站45000+篇文章來說,1%左右的篩選結(jié)果還是可以讓我滿意的。

因?yàn)楹Y選結(jié)果有400多篇,所以下面是按時(shí)間節(jié)選截圖。大家也可以一起來驗(yàn)證一下我的篩選成果,是不是一些精華中的精華。

(右擊,在新標(biāo)簽頁中打開即可查看大圖)

四. 哪些作者值得關(guān)注?

相信大家也能看到在人人的官網(wǎng)和手機(jī)APP中是有作者推薦的。但這個(gè)推薦的模型和依據(jù)并沒有告訴讀者他們是如何篩選出來的。所以在這里我們利用手上現(xiàn)有的資源做完這點(diǎn)分析,來看看人人上有哪些優(yōu)秀的作者。

首先,他應(yīng)該有一定的產(chǎn)量,因?yàn)槿绻髌窋?shù)量太少,可能會導(dǎo)致較大偏差值,而產(chǎn)生較高的個(gè)人分?jǐn)?shù)。所以先排除掉投稿數(shù)量低于5篇的作者;

其次,自然就是文章的質(zhì)量了,結(jié)合前文的打分,取當(dāng)前作者所有作品的平均值即可。下表中為了展示各作者的區(qū)別,把分項(xiàng)目的打分也顯示出來。

如此,這些作者就已經(jīng)有了極大的區(qū)分度,而且根據(jù)各自的分?jǐn)?shù),其實(shí)在一定穩(wěn)定上是可以分辨得出此作者的投稿偏好和類型的。如果還沒有關(guān)注他們,就趕緊關(guān)注一波吧~

補(bǔ)充一點(diǎn)在于,作者的水平描述在人人的體系下,還有打賞、訂閱量和關(guān)注量這些緯度可以讓這個(gè)打分模型更具有說服力。但限于篇幅覺得已經(jīng)夠說明問題就不再追加數(shù)據(jù)了。

下期預(yù)告

以上便是本篇讀者視角的數(shù)據(jù)分析的全部內(nèi)容,希望大家喜歡。有建議和想法的同學(xué)可以在下面的評論區(qū)留言討論。

下一期就是本次分析的最終篇,作為作者,取一個(gè)什么樣的標(biāo)題會火!將會從數(shù)據(jù)分析到數(shù)據(jù)挖掘建立相應(yīng)的模型,可以進(jìn)行預(yù)測。

相關(guān)閱讀

數(shù)據(jù)分析實(shí)戰(zhàn)|人人都是產(chǎn)品經(jīng)理網(wǎng)站(上篇):平臺視角

 

本文由 @?核桃殼 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Pixabay,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 本系列的相關(guān)代碼可以在http://walnut-shell.com/ipython-notebook/ 中找到

    來自北京 回復(fù)
  2. 期待最終篇!

    來自廣東 回復(fù)
  3. 很贊的數(shù)據(jù)分析文章,個(gè)人提一點(diǎn)小建議:1 閱讀量是否可以考慮時(shí)效性因素,也就是一篇文章在多長時(shí)間內(nèi)達(dá)到多少的閱讀量/收藏量/點(diǎn)贊量;2 指標(biāo)體系中的指標(biāo)有權(quán)重差異;3 評價(jià)特征除了發(fā)文量 閱讀量 收藏量 點(diǎn)贊量之外,還得考慮他們的穩(wěn)定性(方差),如某位作者保持穩(wěn)定的頻率在一段時(shí)間內(nèi)的發(fā)文頻率等

    回復(fù)
  4. 不明覺厲,專門注冊給你點(diǎn)贊

    來自上海 回復(fù)
    1. 感謝支持,請期待第三篇 ??

      來自北京 回復(fù)
  5. 寫的很贊,閱讀量Top10的有點(diǎn)出入,是不是做閱讀量還原的時(shí)候單位M的忽略了,現(xiàn)在最高的應(yīng)該是《絕密原型檔案:看看專業(yè)產(chǎn)品經(jīng)理的原型是什麼樣》http://www.codemsi.com/rp/149653.html,2.5m的量,一共應(yīng)該有3篇過百萬的。再次拜讀 ??

    來自北京 回復(fù)
    1. 檢測了下代碼確實(shí)m單位的處理當(dāng)成10萬了,感謝~ ??

      來自北京 回復(fù)