網(wǎng)站內(nèi)容評分模型
![](http://image.woshipm.com/wp-files/img/39.jpg)
我們可以看到目前很多的網(wǎng)站都會有內(nèi)容評分,無論是電子商務、信息分享還是內(nèi)容下載。內(nèi)容的評分主要分為兩類,一類是用戶對內(nèi)容的評分,主要針對用戶的使用感受,如電子商務網(wǎng)站的商品評分,內(nèi)容分享網(wǎng)站的內(nèi)容評分等,這個也是目前最普遍的評分模式,而內(nèi)容的綜合評分的計算也相對比較簡單,大多是取所有用戶評分的均值;另一種評分方式就是網(wǎng)站自身對內(nèi)容的評分,主要針對用戶的歷史行為數(shù)據(jù),如通過用戶對內(nèi)容的訪問情況評價內(nèi)容的熱門程度等。
這里要介紹的網(wǎng)站內(nèi)容評分模型主要針對第二類的評分方式,因為評分的分值是相對固定的,100分制、10分制還是5分制,而用戶相對于每個內(nèi)容所產(chǎn)生的行為數(shù)據(jù)的數(shù)值卻千差萬別,可能是千數(shù)量級,也可能是萬數(shù)量級,甚至是百萬數(shù)量級,如何將這些數(shù)據(jù)轉(zhuǎn)化成標準的評分體制,并讓最終的分值分布更加合理化、有效化,從而讓真正優(yōu)質(zhì)的內(nèi)容獲得較高的評分,并推薦給用戶,是這里重點要解決的問題。
內(nèi)容評分實例
介紹應用的案例前,先要說明下應用的環(huán)境和具體的需求:假設有一個內(nèi)容分享網(wǎng)站,需要將網(wǎng)站中的內(nèi)容進行評分,以5分制的形式展現(xiàn),即每個內(nèi)容的評分只可能出現(xiàn)1-5這5個分值,目的是展現(xiàn)出網(wǎng)站中每個內(nèi)容的熱門程度,為用戶的選擇和閱讀提供參考。
這是一個最簡單的內(nèi)容評分的應用,上面已經(jīng)非常明確的說明了評分的目的——區(qū)分內(nèi)容的熱門度,以及最終的數(shù)據(jù)展現(xiàn)——以5分制的形式展現(xiàn)。對于這樣一個明確了的數(shù)據(jù)需求,我們就可以選擇指標、搭建模型、并最終輸出結果。
1、選擇指標
評價內(nèi)容的熱門度,貌似挺簡單的,直接用內(nèi)容瀏覽量(PV)作為評定指標不就行了?確實,PV是個不錯的選擇,也是最簡單的一種選擇,但其實還有更好的選擇,訪問數(shù)(Visits),訪問用戶數(shù)(UV),這兩個指標能剔除同一個用戶短時間內(nèi)連續(xù)刷新同一內(nèi)容的情況,所以我們不妨選擇訪問用戶數(shù)UV來作為評價指標。
2、構建評分模型
現(xiàn)在開始才是文章的關鍵內(nèi)容,顯然,需要對內(nèi)容的熱門程度進行評價首先要消除指標的度量單位,并把分值的分布區(qū)間控制在要求的范圍內(nèi)——1-5分。
消除度量單位?也許你已經(jīng)想到了,是的,還是數(shù)據(jù)的標準化,這篇文章中的方法已經(jīng)在多處使用,可以說是很多數(shù)據(jù)分析和數(shù)據(jù)挖掘的基礎步驟。
Min-Max歸一化評分
Min-Max是最常用的數(shù)據(jù)歸一化方法(詳見數(shù)據(jù)標準化這篇文章的描述),處理后的數(shù)據(jù)分布在[0,1]的區(qū)間內(nèi),接下來只要把0-1的數(shù)值轉(zhuǎn)化1-5這5個分值就行。很簡單,先乘以4使數(shù)據(jù)落在[0,4]的分布區(qū)間,四舍五入,是不是只剩下0-4這5分分值了,再加1就可以得到我們想要的結果了。我們來看看處理后的各分值內(nèi)容分布情況的示例:
根據(jù)上面各分值內(nèi)容分布圖可以看出Min-Max的評分結果的每個分值的內(nèi)容數(shù)量分布是不可控的,一般會跟網(wǎng)站中熱門內(nèi)容和冷門內(nèi)容的比例直接相關,所以當某些網(wǎng)站的熱門內(nèi)容只占網(wǎng)站所有內(nèi)容的20%,并且這些內(nèi)容的訪問量異常高,占據(jù)了所有網(wǎng)站訪問量的80%,也就是我們平常說的符合二八法則。那么可能出現(xiàn)的情況就是大部分的內(nèi)容評分集中在1分,小部分集中在5分,而中間的2、3、4分的內(nèi)容分布非常少,其實上圖就有點偏向這個趨勢,但其實很多時候我們期望的內(nèi)容分布可以偏向正態(tài),也就是大部分內(nèi)容能分布在中間分值,兩端分值的內(nèi)容數(shù)據(jù)相對較少,于是就有了下面的另一種評分模型:
Z標準化評分
如果你的網(wǎng)站的內(nèi)容數(shù)量很多,那么就可以使用Z標準化(詳細描述還是參見數(shù)據(jù)標準化那篇文章,這里不重復了)。Z標準化的好處是可以讓數(shù)據(jù)呈現(xiàn)正態(tài)分布的趨勢(不是正是我們想要的嗎? ),標準化后的數(shù)據(jù)趨于N(0,1)的正態(tài)分布,也就是整體的均值為0,標準差為1。再想想辦法讓他們變成只是1-5這5個分值,當標準化后的數(shù)值:
小于等于-1.5(即-1.5σ)時:1分
大于-1.5(即-1.5σ)小于等于-0.5(即-0.5σ)時:2分
大于-0.5(即-0.5σ)小于0.5(即0.5σ)時:3分
小于等于0.5(即0.5σ)小于1.5(即1.5σ)時:4分
大于等于1.5(即1.5σ)時:5分
如果數(shù)據(jù)符合標準正態(tài)分布,那每個分值的比例大概是,1分和5分的內(nèi)容分別占7%,2分和4分的內(nèi)容分別占23%,3分的內(nèi)容占40%。我們再來看看用這個方法得到的評分結果的分布情況:
是不是看到你想要的結果了?
3、輸出結果
當然內(nèi)容評分的展現(xiàn)方式有很多,下面是幾個網(wǎng)站的評分截圖,其實都不錯。?
上面介紹的主要是針對單一指標的內(nèi)容評分體系,其實在很多情況下內(nèi)容的評分是諸多指標共同影響的結果,那么內(nèi)容的評分應該考慮所有這些影響因子,應該構建相應的模型計算內(nèi)容的綜合評分,這里不展開,之后有機會再介紹。
? 本文采用?BY-NC-SA 協(xié)議,轉(zhuǎn)載請注明來源:網(wǎng)站數(shù)據(jù)分析 ??《網(wǎng)站內(nèi)容評分模型》
- 目前還沒評論,等你發(fā)揮!