構(gòu)建用戶畫像系統(tǒng)解決方案
編輯導語:如今在這個大數(shù)據(jù)時代,很多時候我們會被打上“標簽”,比如我們在逛淘寶時,軟件會根據(jù)你的瀏覽和搜索喜好進行推薦,這就是對于用戶的精準投放,有效地提高轉(zhuǎn)化;本文作者分享了關(guān)于構(gòu)建用戶畫像系統(tǒng)解決方案,我們一起來看一下。
一、認識用戶畫像
1. 什么是用戶畫像
用戶畫像是一個描述用戶的工具,刻畫出用戶個體或者用戶群體全方位的特征,為運營分析人員提供用戶的偏好、行為等信息進而優(yōu)化運營策略,為產(chǎn)品提供準確的用戶角色信息以便進行針對性的產(chǎn)品設(shè)計。
用戶畫像系統(tǒng)集用戶畫像的生產(chǎn)與應(yīng)用于一身,對外(如產(chǎn)品運營、推薦系統(tǒng)等)封裝提供用戶畫像信息,以便對產(chǎn)品更好的設(shè)計以及對用戶更好的運營。
2. 用戶畫像與數(shù)倉的關(guān)系
前面介紹了數(shù)據(jù)倉庫的搭建《數(shù)據(jù)產(chǎn)品經(jīng)理如何推進數(shù)據(jù)倉庫的落地》,那么用戶畫像與數(shù)倉是一個什么樣的關(guān)系?
一般來說,數(shù)據(jù)倉庫存儲的是結(jié)構(gòu)化的數(shù)據(jù),而構(gòu)建用戶畫像需要結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),既擁有結(jié)構(gòu)化數(shù)據(jù)又擁有半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)稱之為數(shù)據(jù)湖。
相對來說,結(jié)構(gòu)化的數(shù)據(jù)更容易構(gòu)建用戶畫像,只需要對結(jié)構(gòu)化的數(shù)據(jù)直接進行標簽化,而非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)需要通過算法進行處理后再進行標簽化。
用戶畫像與數(shù)倉的關(guān)系為數(shù)據(jù)源與數(shù)據(jù)應(yīng)用的關(guān)系,兩者相輔相成,關(guān)系圖如下:
3. 用戶畫像(User Profile)與用戶角色(User Persona)區(qū)別
經(jīng)常有人搞不清楚用戶畫像與用戶角色的區(qū)別,其實兩者本質(zhì)上是不一樣的,先來看看兩者的對比圖表:
①性質(zhì):用戶角色為定性研究,只考慮用戶的特征性質(zhì)不考慮程度,而用戶畫像是對用戶的精細刻畫,為定量研究。
②使用時機:一般來說,用戶角色的使用場景在產(chǎn)品上線之前,此時幾乎沒有任何數(shù)據(jù),需要產(chǎn)品同學針對產(chǎn)品的使用方進行特征描繪,以便了解目標群體進行針對性的設(shè)計;用戶畫像的使用場景在產(chǎn)品上線后,此時已積累了一定的數(shù)據(jù)量,可以對用戶進行數(shù)據(jù)統(tǒng)計構(gòu)建用戶畫像,獲得精細化運營的能力。
③描述程度:用戶角色是對某個用戶群體特征進行高度概括,用戶畫像是對用戶個體或者用戶群體的精細描述。
④用途:用戶角色用于輔助產(chǎn)品進行設(shè)計,研究用戶體驗,例如權(quán)限控制系統(tǒng)會分為以下幾個角色:分析師、產(chǎn)品、運營、數(shù)據(jù)科學家等角色,用戶畫像用于了解用戶特征以及偏好,以便提供個性化的服務(wù)和提高盈利。
二、用戶畫像規(guī)劃
在構(gòu)建用戶畫像之前,需要產(chǎn)品同學進行一個規(guī)劃,說明下項目的背景以及做這個系統(tǒng)的必要性,最終要實現(xiàn)的目標是什么,即提供什么樣的功能,為了達成這個目標需要的人力以及物力資源。
1. 所需物力資源
這里需要計算一下需要什么硬件,如多大的磁盤、內(nèi)存,需要哪些,具體可以將硬盤和內(nèi)存分配到每個存儲及計算組件上,這個工作可與技術(shù)同學協(xié)商完成。
2. 所需人力資源
基于前面的介紹,設(shè)備的維護以及各存儲計算組件的運行保障這里需要運維工程師,數(shù)據(jù)的清洗需要ETL工程師。
數(shù)據(jù)的存儲、標簽生成、流式計算等需要用到多種的大數(shù)據(jù)組件,這就需要大數(shù)據(jù)開發(fā)工程師,同時存儲的數(shù)據(jù)庫各種備份維護等工作需要配備數(shù)據(jù)庫工程師。
非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過算法處理,所以算法工程師也是必需的;最后,用戶畫像需要進行可視化,還需要配備一個前端工程師。
根據(jù)以上分析,所需的工程師如下(具體需要人數(shù)視項目而定,有的全棧工程師可以身兼多職就不需要這么多):
三、怎么構(gòu)建用戶畫像
1. 用戶畫像實施
在開始構(gòu)建用戶畫像之前,需要數(shù)據(jù)產(chǎn)品出一個詳細的實施文檔,如果說用戶畫像規(guī)劃文檔是說做什么的話,那用戶畫像實施文檔就是說明具體要怎么做;這樣開發(fā)人員才知道具體的邏輯著手實施,如受多個因素影響的標簽每個因素的權(quán)重是多少,這樣才能計算出最終標簽的值。
以下各步驟均要在實施文檔里面詳細說明:
2. 數(shù)據(jù)建模
數(shù)據(jù)的如何從原始數(shù)據(jù)最終轉(zhuǎn)化成標簽數(shù)據(jù),需要定義一個標準處理流程,這就是數(shù)據(jù)建模。
1)建模流程
以上圖片為使用多項 Logistic 回歸算法對電信業(yè)客戶進行分類的建模流程,從圖片上看,數(shù)據(jù)建模可以分為以下幾個步驟:
① 獲取原始數(shù)據(jù),包含用戶訪問的行為日志、用戶基本屬性等,具體需要的數(shù)據(jù)視用途而定,這里預(yù)測客戶類別用到的信息有地區(qū)、年齡、婚姻狀況、地址、收入、教育程度、行業(yè)、退休、性別、居住地和客戶類別。
② 數(shù)據(jù)預(yù)處理,挖掘出事實標簽,對用戶數(shù)據(jù)進行過濾、清洗、簡化表示,例如:過濾掉表中的無關(guān)字段,指定字段類型,處理缺省值等。
③ 分析用戶行為及屬性,構(gòu)建用戶畫像的模型標簽,通過用戶行為屬性分析,得到各類型用戶的行為規(guī)律及特征屬性,構(gòu)建用戶行為屬性模型,訓練出最終模型。
④ 調(diào)優(yōu)模型,對模型進行調(diào)優(yōu),使預(yù)測結(jié)果更準確。
⑤ 通過模型進行預(yù)測,完善用戶畫像,預(yù)測用戶的操作行為。
2)建模常用模型
以下列出常見的建模模型,以便了解熟悉各模型的常見用途。
① 文本挖掘模型(TF-IDF):常用于文本的特征提取,處理與清洗數(shù)據(jù),匹配標識用戶數(shù)據(jù),TF-IDF的主要思想是:如果某個詞或短語在一篇文章中出現(xiàn)的頻率越高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,能更好的代表本篇文章,適合用來分類。
② 分類聚類模型(貝葉斯、KNN、K-Means):通過分析有相同特征的群體信息,對用戶進行劃分。
③ 機器學習:通過特征提取挖掘出標簽。
④ 相似度模型(余弦相似度、皮爾遜相似度):用于輔助分類、聚類。
⑤ 推薦算法(Apriori):根據(jù)用戶訪問情況推薦出興趣標簽,完善畫像。
3. 用戶畫像維度拆解
思考通過各種維度來全方位描述用戶畫像,根據(jù)產(chǎn)品是To B還是To C注重的方向又不一樣,To C類型產(chǎn)品會關(guān)注用戶的性別、年齡、興趣、職業(yè)等信息;而To B類產(chǎn)品不太關(guān)注這些,會更傾向于研究用戶的工作能力、行為習慣等。
產(chǎn)品所處的行業(yè)對用戶畫像側(cè)重點也有影響,社交類和金融類的產(chǎn)品關(guān)注點又不一樣;一般來說,可通過以下信息來基本構(gòu)建用戶畫像,其余的維度視具體需求再進行定制化開發(fā)。
總之,用戶畫像的多維度刻畫需要遵循MECE法則進行全方位不重復(fù)的拆解,這里同時引出了一個問題,維度的細分是不是越細越好?
如果用戶畫像的顆粒度過于精細。意味著開發(fā)成本直線提升,同時,過細的拆分意味著每個類別對應(yīng)的用戶量變少,造成服務(wù)目標單一化。
舉一個比較極端不存在的例子,將用戶ID作為標簽,則每個ID對應(yīng)一個用戶,這樣的細分對精細化運營是沒有幫助的;在維度細化拆分的過程中也要不停關(guān)注標簽值覆蓋面來進行微調(diào)。
4. 用戶畫像標簽生成
由于用戶需求和用戶場景不斷更新,所以標簽體系需要持續(xù)完善。不同的用戶需求和業(yè)務(wù)場景,不同的業(yè)務(wù)標簽,用戶標簽系統(tǒng)就不同。
1)標簽的生成
標簽從生成邏輯上來區(qū)分主要有幾大類:統(tǒng)計標簽、規(guī)則標簽、模型標簽、算法標簽。
- 統(tǒng)計標簽:根據(jù)已有數(shù)據(jù)進行統(tǒng)計,如統(tǒng)計用戶近30天的消費金額;
- 規(guī)則標簽:根據(jù)一定的業(yè)務(wù)規(guī)則進行劃分,如根據(jù)用戶的歷史消費情況給用戶劃分對應(yīng)的消費等級;
- 模型標簽:基于一些分析模型對用戶進行打標簽,如RFM模型;
- 算法標簽:此類標簽可用于預(yù)測,如預(yù)測用戶是否是潛在付費用戶。
下面在RFM模型基礎(chǔ)上,結(jié)合AHP分析法對用戶進行打標簽:
某產(chǎn)品有以下購買消費數(shù)據(jù):
如果我們想知道每個用戶的價值是多少的話需要怎么評估,用戶價值有多個因素影響,這里的影響因素就是RFM三個因素,計算步驟如下:
構(gòu)建層次結(jié)構(gòu)模型:
構(gòu)造判斷矩陣:
根據(jù)以上打分規(guī)則,由經(jīng)驗豐富、判斷力強的專家對三個因素兩兩打分給出判斷矩陣。
上表意味著專家評判RFM三個因素的權(quán)重順序分別是M>F>R。
計算特征向量:
通過判斷矩陣計算特征向量(也就是權(quán)重)。
判斷矩陣一致性檢驗:
有了以上權(quán)重,還要進行一致性檢驗,判斷權(quán)重分配是否合理,避免出現(xiàn)類似M>F,F>R,R>M的情況;由于篇幅問題,就不進行詳細的計算,網(wǎng)上也提供了在線計算工具只需要輸入判斷矩陣即可得出一致性檢驗結(jié)果。
從以上計算,我們得出了RFM三個因素的權(quán)重,接下來就要根據(jù)這些權(quán)重以及各用戶的RFM具體的值來計算用戶價值。
RFM值標準化計算價值:
因為RFM值的量綱不一樣,需要進行標準化才有可比性,可通過以下兩個公式進行標準化。
兩個公式應(yīng)用的場景不一樣,第一個公式適用于該因素對結(jié)果有正向影響時使用,第二個公式適用于該因素對結(jié)果有負向影響時使用。
RFM因素中,R值越小對用戶價值影響越大,因此使用第二個公式,F(xiàn)值和M值越大對用戶價值影響越大,因此使用第一個公式。
使用以上兩個公式進行標準化后,將得到標準化后的值分別乘以該因素對應(yīng)的權(quán)重即可得到每個用戶的價值。
生成標簽:
根據(jù)上面計算出來的值生成各因素對應(yīng)的標簽,可以用均值區(qū)分,均值以上的為1,均值以下的為0,最終生成的標簽如下:
以上有R、F、M、價值四個因素,每個因素有0或者1兩種情況,總共可以組合成16種情況,即可以將用戶分為16層,針對每層用戶特點進行個性化服務(wù)。
5. 標簽值映射規(guī)則
各類標簽在底層存儲中并不會儲存具有實際意義的值,為了節(jié)省存儲成本和提高查詢效率通常用0、1等簡單字符來表示;所以具體的映射規(guī)則需要數(shù)據(jù)產(chǎn)品進行定義并維護,業(yè)務(wù)人員咨詢某標簽里面的1代表什么意思的時候不至于一頭霧水。
6. 用戶畫像質(zhì)量評估
經(jīng)過以上步驟,用戶畫像的維度逐漸豐富,此時需要對用戶畫像的質(zhì)量進行檢驗,主要從以下幾個方面:
用戶覆蓋率:用戶畫像具體能夠覆蓋到多少用戶,如年齡標簽有80萬人打上的具體的值,有20萬人沒打上,則年齡標簽的用戶覆蓋率是80%;覆蓋率是用戶畫像應(yīng)用的一個評價,覆蓋率越高,對后續(xù)精準營銷的策略選擇越準確。
準確率:標簽有值但是打錯了標簽也是質(zhì)量差的一個表現(xiàn),,使用算法模型導致的用戶分群錯誤或者對用戶的購買意向預(yù)測錯誤,將直接影響購買率,影響GMV。此項指標可以通過灰度測試來驗證。
可拓展:用戶畫像系統(tǒng)在維度刻畫方面應(yīng)該是可擴展的,支持后續(xù)方便的增加其他標簽維度。
及時性:標簽的實時更新對一些場景化推薦營銷起到至關(guān)重要的作用,需要對近10分鐘內(nèi)做過某些行為的用戶進行針對性廣告推薦,如果用戶做了該行為但是標簽沒有及時更新的話那這個推薦系統(tǒng)將起不到任何作用。此項指標可以人工進行操作后觀察用戶畫像更新的時長。
7. 用戶畫像可視化
用戶畫像完成之后,需要對用戶畫像進行可視化以便只管感受,可通過Echarts、Tableau等可視化工具進行繪圖;對于用戶個體,可生成類似于簡歷的用戶信息描述,對于用戶群體,可展示該群體在各個維度的分布情況。
四、用戶畫像的應(yīng)用
用戶畫像的應(yīng)用場景十分廣泛,無論是用戶精細化運營還是系統(tǒng)個性化服務(wù)都能很好的支持,以下列舉一些用戶畫像常見的應(yīng)用:
- 精準營銷,分析產(chǎn)品潛在用戶,針對特定群體利用短信郵件等方式進行營銷;
- 用戶統(tǒng)計,比如APP用戶的性別、年齡分布;
- 推薦系統(tǒng),通過數(shù)據(jù)挖掘利用關(guān)聯(lián)規(guī)則計算,進行物品關(guān)聯(lián)推薦,利用聚類算法分析,上班一族使用APP的時間分布情況;
- 廣告推薦,其實也是推薦系統(tǒng)的一種;
- 提供種子用戶,篩選出與種子用戶類似的用戶群體或者相反的用戶群體,進行定制化的服務(wù)。
本文由 @不語 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自?Unsplash,基于 CC0 協(xié)議
讀了三遍,第一次接觸數(shù)據(jù)模型算法的文章。我這里正在做一個煤礦公司(兩萬人)的B端項目,想通過對用戶的安全履職各類數(shù)據(jù)進行分析,然后用戶評價,給決策層提供重點關(guān)注人群,整好用得到。感謝作者分享!?。?/p>
您好看了您的文章,我們正在尋找課程開發(fā)的合作講師,不知道您是否有意愿,方便可以加V(www-627715182)詳細了解
很棒,感謝