如何從海量特征中選取用戶的關(guān)鍵畫像特征?
編輯導(dǎo)讀:每個(gè)在互聯(lián)網(wǎng)工作的人,對(duì)“用戶畫像”這個(gè)詞熟悉得不能再熟悉。用好用戶畫像,能夠幫助我們專注于對(duì)用戶最重要的事情,有針對(duì)性地設(shè)計(jì)和決策。本文將圍繞用戶畫像的關(guān)鍵特征提取展開分析討論,希望對(duì)你有幫助。
“用戶關(guān)鍵特征的提取,是用戶畫像中比較常見的一個(gè)應(yīng)用場(chǎng)景,但又比較棘手的難題?!?/strong>
什么是用戶的關(guān)鍵特征?如何對(duì)用戶的關(guān)鍵特征進(jìn)行提?。拷裉旌痛蠹乙黄鹛接懸幌?。
一、什么是關(guān)鍵特征?
首先,什么是用戶的關(guān)鍵特征呢?先舉個(gè)例子吧。
某個(gè)商場(chǎng)中的服裝店,每天的客流中有70%是女性,有30%是男性。既然一大半的訪客都是女性了,那么我們是不是可以說該服裝店的訪客的關(guān)鍵特征是【女性】呢?某種意義上,可以這樣說,但某種意義上,又不是。
什么情況下不是呢?莫急,請(qǐng)聽我繼續(xù)完善這個(gè)場(chǎng)景。
剛才提到的是這個(gè)服裝店的訪客??墒悄兀@個(gè)商場(chǎng)的訪客中有80%是女性,只有20%是男性。這么一比,這個(gè)服裝店的關(guān)鍵特征還是【女性】嗎?
看來,關(guān)鍵特征也可以是個(gè)相對(duì)的概念。
再舉個(gè)例子,比如某個(gè)公司中有1000員工,其中999名員工都是本科,只有一名員工是博士,那這名博士員工的典型特征,是不是可以是【博士】?
總結(jié)一下,用戶的特征,可以有千千萬。但所謂用戶的關(guān)鍵特征,就是該用戶(或者該用戶群體)有顯著特點(diǎn)的特征。
二、關(guān)鍵特征的分類
上面通過例子簡單介紹了一下用戶的關(guān)鍵特征,從用戶類別及特征類別的角度,我們可以將關(guān)鍵特征有以下分類。
1. 單個(gè)用戶的關(guān)鍵特征
對(duì)于單個(gè)用戶而言,關(guān)鍵特征其實(shí)只有一種,那就是個(gè)體特征。上面舉了博士的例子,這里就不贅述了。
強(qiáng)調(diào)一下,單用戶的關(guān)鍵特征一定是需要參照物(即對(duì)比人群)的,且對(duì)比人群是群體,而非個(gè)體。不然1個(gè)人和1個(gè)人進(jìn)行比較,有啥關(guān)鍵特征可言呢?
2. 群體用戶的關(guān)鍵特征
對(duì)于群體用戶,其實(shí)有兩類關(guān)鍵特征:一類是絕對(duì)特征,一類是相對(duì)特征。
所謂絕對(duì)特征,只需要看該群體的特征分布即可,是不需要進(jìn)行對(duì)比的。例如上面服裝店的例子,如果看絕對(duì)特征,女性訪客占比70%,那么就可以下結(jié)論:該服裝店的性別特征是女性,但要強(qiáng)調(diào)這只是絕對(duì)的情況下。
所謂相對(duì)特征,就是強(qiáng)調(diào)了對(duì)比。例如上面服裝店的訪客在商場(chǎng)訪客的比較之下,男性其實(shí)是相對(duì)多的。相對(duì)特征又分了兩類:
- 正向特征:意思是該特征和對(duì)比人群比,明顯偏高
- 逆向特征:這個(gè)意思恰恰相反,是和對(duì)比人群比,明顯偏少。
為啥絕對(duì)特征沒有逆向的細(xì)分呢?因?yàn)榻^對(duì)特征的逆向特征是不可窮舉的……比如這個(gè)服裝店的訪客,0%的人是科學(xué)家,0%的人是無業(yè)人士,0%的人是高收入群體……這種標(biāo)簽是窮舉不完的,從絕對(duì)值上失去了分析意義。但對(duì)于對(duì)比標(biāo)簽,是有意義的。
從很多情況之下,相對(duì)特征的應(yīng)用場(chǎng)景更廣泛,也更科學(xué)一些。
三、關(guān)鍵特征的識(shí)別
上面講了很多不同類型的關(guān)鍵特征,那如何將單用戶或者用戶群體的關(guān)鍵特征進(jìn)行識(shí)別呢?
首先明確一點(diǎn),關(guān)鍵特征的識(shí)別,首先需要有特征池。所謂特征池,可以理解成標(biāo)簽范圍。比如選定【用戶地域】、【用戶年齡】、【用戶購買偏好】……等200個(gè)標(biāo)簽作為特征池。開放式的特征池是不切實(shí)際的。特征池的選擇可以基于業(yè)務(wù)需求來選。
1. 單用戶的關(guān)鍵特征識(shí)別
其實(shí)可以用這個(gè)特征在總體人群中的占比來判斷。
比如上面的例子,【學(xué)歷】標(biāo)簽特征中,只有0.1%的人是博士,那么這0.1%的博士從個(gè)體上講,理論上都可以將【博士】標(biāo)簽作為他們的個(gè)體特征。
用心的你一定會(huì)問,這是99.9%對(duì)比0.1%,那如果是90%對(duì)比10%呢?如果是60%對(duì)比40%呢?如果是多個(gè)取值呢?
是的,這里在具體的產(chǎn)品落地上,涉及到閾值的設(shè)置、多值標(biāo)簽的處理等許多詳細(xì)邏輯。這里不詳細(xì)展開了,歡迎讀者發(fā)表自己的想法哈!
2. 群體用戶的關(guān)鍵特征
關(guān)于群體的關(guān)鍵特征,其中有個(gè)很重要的概念需要提一下:TGI。
直接截圖吧……
重點(diǎn)是這個(gè)公式:TGI指數(shù)?= [目標(biāo)群體中具有某一特征的群體所占比例/總體中具有相同特征的群體所占比例]*標(biāo)準(zhǔn)數(shù)100。
TGI是用來識(shí)別哪些特征是突出特征的重要方法。我們上面提到的正向特征和逆向特征,就可以用TGI進(jìn)行排序,正排逆排即可。
四、關(guān)鍵特征的應(yīng)用
說了這么多關(guān)鍵特征的內(nèi)容,那到底有啥應(yīng)用場(chǎng)景呢?
其實(shí)最最主要的應(yīng)用,應(yīng)該就是用于人群的畫像了。市面上大部分的用戶畫像,是這樣的:
什么意思呢?其實(shí)就是事先固化好了要畫像的維度,例如【性別】啦、【年齡】啦等,頂多支持用戶做個(gè)配置,可以選擇要畫像的維度。通常也不會(huì)超過幾十個(gè)的范圍(因?yàn)檫x擇過多,產(chǎn)品的可行性會(huì)很差)。
預(yù)置畫像維度,帶來最大的一個(gè)問題就是,有可能錯(cuò)過典型特征。比如一個(gè)用戶群體,可能按照TGI計(jì)算下來,最突出的特征是用戶的支付方式是信用卡居多,而這種比較小眾的畫像維度,很有可能就不在預(yù)置的范圍中,這會(huì)錯(cuò)失很多業(yè)務(wù)機(jī)會(huì)。
而通過先確定特征池,后根據(jù)不同的邏輯方法確定用戶特征,會(huì)極大降低此類風(fēng)險(xiǎn)。也是更科學(xué)的做法。
當(dāng)然,在實(shí)際落地過程中,也有很多困難。比如說,上面提到的,個(gè)體標(biāo)簽如果是多取值怎么辦?閾值怎么設(shè)置合理?比如相對(duì)特征中,如果分母特別小導(dǎo)致TGI巨高怎么處理?等等。這些問題都是需要在實(shí)踐中不斷解決的。
今天的分享主要是這些,歡迎大家一起交流。
本文由 @冬至 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!