用戶畫像連載二:時(shí)尚全媒體用戶畫像建模
文章分享的主要內(nèi)容為用戶畫像要如何建模,希望本文對你有所幫助。
?用戶畫像最終的結(jié)果是一張大寬表,一行為一個(gè)用戶的用戶畫像,存儲了用戶對應(yīng)的每個(gè)標(biāo)簽值。建模就是為每個(gè)標(biāo)簽制定合理的計(jì)算公式。
(請點(diǎn)擊查看大圖)
基礎(chǔ)模型
基礎(chǔ)數(shù)據(jù)一般有用戶數(shù)據(jù)、內(nèi)容實(shí)體數(shù)據(jù)、用戶行為數(shù)據(jù)三類,需要根據(jù)用戶行為構(gòu)建相應(yīng)的數(shù)據(jù)模型產(chǎn)出標(biāo)簽和權(quán)重。每一次的用戶行為,可以詳細(xì)描述為:什么用戶,在什么時(shí)間,什么地點(diǎn),發(fā)生了什么事。
- 什么用戶:即用戶識別,其目的是為了區(qū)分用戶。用戶識別的方式包括Cookie,注冊ID,微信,微博,QQ,手機(jī)號等。
- 什么時(shí)間:在用戶行為中,普遍認(rèn)為近期發(fā)生的行為更能反映用戶當(dāng)下的特征,因此過往行為將表現(xiàn)為在標(biāo)簽權(quán)重上的衰減。
- 什么地點(diǎn):即用戶的接觸點(diǎn),,包含了兩個(gè)潛在信息:網(wǎng)址和內(nèi)容。內(nèi)容決定標(biāo)簽,網(wǎng)址決定權(quán)重。用戶在天貓瀏覽了iPhone6的信息和在蘋果官網(wǎng)瀏覽也將存在權(quán)重的差異,因此,網(wǎng)址的內(nèi)容反映了標(biāo)簽信息,網(wǎng)址本身則表征了標(biāo)簽的權(quán)重。本案例中的業(yè)務(wù)以閱讀型為主,把網(wǎng)址權(quán)重都簡化為1。
- 做了什么:用戶的行為類型,例如訪問、收藏、試用、分享、搜索等,同樣反映的是標(biāo)簽的權(quán)重。
從上述建模方法中,我們可以簡單勾畫出一個(gè)用戶行為的標(biāo)簽權(quán)重公式:
標(biāo)簽權(quán)重=時(shí)間衰減(何時(shí))x網(wǎng)址權(quán)重(何地)x行為權(quán)重(做什么)
如果是訪問行為,可以再增加訪問時(shí)長的權(quán)重,10S以內(nèi)權(quán)重為1,10S-30S為2,30S以上為3
最后把用戶一段時(shí)間內(nèi)同一個(gè)標(biāo)簽的權(quán)重進(jìn)行累加,就獲得到用戶此標(biāo)簽的值。
根據(jù)行為的成本大小來判斷標(biāo)簽的權(quán)重,成本越高越是真愛。例如訪問頁面是成本最小的,同時(shí)賦予標(biāo)簽的權(quán)重值就較低收藏能代表用戶的喜好,權(quán)重較高。
此外這里我們假設(shè)同一個(gè)頁面所附屬標(biāo)簽和頁面內(nèi)容的相關(guān)度都是一樣的,例如一篇文章《女人懂西裝是一件很性感的事 你的他穿對了嗎》附帶了男裝、高級定制、時(shí)尚、潮流、西裝?5個(gè)不同標(biāo)簽,其實(shí)內(nèi)容和標(biāo)簽的相關(guān)度會(huì)有差異,可以通過編輯人工或者機(jī)器學(xué)習(xí)的方式為標(biāo)簽賦予不同的相關(guān)度,這樣最終得出的標(biāo)簽權(quán)重可信度更高。
以上只是基礎(chǔ)模型,適用于內(nèi)容標(biāo)簽、產(chǎn)品分類、產(chǎn)品標(biāo)簽、品牌標(biāo)簽。美妝總體偏好度、用戶活躍度、用戶價(jià)值等標(biāo)簽仍需要單獨(dú)建立模型。潛在需求的挖掘適用回歸預(yù)測等算法模型。
內(nèi)容偏好度(美妝、服飾)模型
用某分類下所有標(biāo)簽的累加值來度量用戶對內(nèi)容的總體偏好度,例如:用戶A的美妝偏好度為其所有美妝類標(biāo)簽值的加和。如果服飾總體偏好度大于美妝偏好度,說明用戶訪問的服飾內(nèi)容較多,在本站內(nèi)更偏向看服飾內(nèi)容。
活躍度模型
活躍度可以根據(jù)用戶來訪、互動(dòng)情況、核心功能使用頻率等綜合確定。例如:
- 核心用戶:每周有訪問、近一個(gè)月互動(dòng)次數(shù)達(dá)到30次以上
- 活躍用戶:每周有訪問、互動(dòng)次數(shù)10次以上
- 一般用戶:每月有訪問
- 流失用戶:3月以上未訪問
用戶價(jià)值模型
消費(fèi)領(lǐng)域最廣泛應(yīng)用的是RFM模型。
- R是Recency,最近一次消費(fèi);R5最高,最近一周有消費(fèi),最近兩周,最近一個(gè)月,最近兩月,最近半年;
- F是Frequency,消費(fèi)頻率; ?最近6個(gè)月消費(fèi)次數(shù),例如:五次以上為 F5,依次類推;
- M是Monetary,消費(fèi)金額;
計(jì)算結(jié)果為:543,代表R5F4M3級別對用戶,根據(jù)產(chǎn)品類型的不同,可以調(diào)整R、F、M的定義。
借鑒RFM模型的思想,我們可以把用戶行為也拆解為三個(gè)維度來衡量:最近訪問時(shí)間、訪問頻次 、互動(dòng)次數(shù);(只是一種想法,未經(jīng)實(shí)踐檢驗(yàn))
- R替換成最近訪問時(shí)間,R5最高,最近一周訪問、最近兩周、最近一個(gè)月、最近兩個(gè)月、最近三個(gè)月;
- F替換成訪問頻次(UV),F(xiàn)5最高,30次以上為F5,依次類推;
- M替換成互動(dòng)次數(shù),R5最高,60次以上為R5,依次類推;
最后簡單說下需要預(yù)測的標(biāo)簽?zāi)P?,預(yù)測更多是推薦系統(tǒng)要做的事情,類似潛在需求的標(biāo)簽需要用到機(jī)器學(xué)習(xí)算法,根據(jù)用戶標(biāo)簽權(quán)重、收藏了產(chǎn)品A、產(chǎn)品C、產(chǎn)品D的用戶,挖掘還喜歡哪些產(chǎn)品和內(nèi)容。比較常見的有貝葉斯、回歸算法。
作者:百川,微信公眾號:修煉大數(shù)據(jù)(studybigdata)
本文由 @百川 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自PEXELS,基于CC0協(xié)議
受益很大,跟鞋大佬,已關(guān)注微信和人人
請問個(gè)問題,各模式里面定義的每個(gè)標(biāo)簽權(quán)重(如核心用戶:每周有訪問、近一個(gè)月互動(dòng)次數(shù)達(dá)到30次以上),每個(gè)產(chǎn)品可能不同的階段設(shè)置的值都不同,這個(gè)有通用的計(jì)算模式或制定思路么?
確實(shí)很難有通用的計(jì)算模式,不同產(chǎn)品的產(chǎn)品特性是不一樣的,運(yùn)營的關(guān)鍵點(diǎn)也是有差異的,可以先和運(yùn)營共同商定一個(gè)版本,隨著運(yùn)營在調(diào)整