策略產(chǎn)品經(jīng)理必懂標簽生成策略及工程化邏輯

0 評論 1194 瀏覽 8 收藏 13 分鐘

本文介紹了抖音推薦系統(tǒng)中的標簽生成和迭代過程,以及如何通過用戶行為數(shù)據(jù)構(gòu)建標簽體系,從而實現(xiàn)精準的內(nèi)容推薦策略。

大家好,我是策略產(chǎn)品夏師傅。

男士的抖音里面為什么十個推薦里有八個是大長腿,它是怎么做的?

注意了,這個時候可能是你被打標了。

那么標簽是怎么生成的,又是怎么迭代的,我們一起來看看。

其實,當你是新用戶的時候,抖音并不知道你喜歡什么樣的視頻,這時候給你推薦的視頻完全是隨機推薦一些熱度高的視頻,在這些視頻的背后貼滿了一個個屬性標簽。

比如:一個小姐姐的熱舞視頻,視頻的背后標簽可能就是“美女”、“大長腿”、“跳舞”、“黑絲”等諸多標簽;而一個做菜的美食視頻標簽可能就是“美食”、“家常”、“廚藝教學(xué)”等諸多標簽。

隨著你行為數(shù)據(jù)的豐富,你相應(yīng)的行為會加深生產(chǎn)標簽的權(quán)重。比如:你在某個視頻的停留時間更長,觀看次數(shù)更多,點贊、評論、轉(zhuǎn)發(fā)等互動行為更多,那么這個視頻背后的標簽在你的賬號上權(quán)重就會上升。

其實,一句話:推薦內(nèi)容逐漸精準的過程就是一個貼標簽、統(tǒng)計標簽、匹配標簽和結(jié)合其他維度屬性的綜合過程。

通過一定數(shù)量的行為數(shù)據(jù)統(tǒng)計,抖音就能大概知道你的喜好傾向,接下來的推薦視頻會根據(jù)你的喜好傾向,推薦帶有相同標簽的高質(zhì)量視頻以做進一步的分析,逐步完善,針對你喜好的推薦會越來越精準,獲得你更多停留時長的概率也就越高。

抖音圍繞著標簽體系、召回模型、融合模型、排序規(guī)則等其他維度屬性排序做了一個綜合的策略體系。

用戶喜歡什么類型的視頻我們是不知道的,并且計算機無法理解人們主觀的思維,所以我們需要收集并分析用戶在平臺產(chǎn)生的行為數(shù)據(jù),把這些行為數(shù)據(jù)進行精煉、歸類,形成一套完整閉環(huán)的標簽體系去描繪用戶的數(shù)據(jù)形象。

標簽體系的應(yīng)用流程

一套優(yōu)秀的標簽體系結(jié)構(gòu)可以讓計算機更好的理解這些行為數(shù)據(jù),對于用戶意圖的判斷和數(shù)據(jù)召回模型的優(yōu)先級都有很重要的輔助作用。

整個標簽體系的搭建圍繞著三個步驟去展開:標簽建模、標簽提煉、標簽聚合

01 標簽建模

搭建思路是將數(shù)據(jù)分為四個層級模型,第四層為預(yù)測模型,但預(yù)測模型的算法需要大量數(shù)據(jù)進行演算,本次不做討論,所以暫且分為三層進行構(gòu)建。

標簽體系的流程架構(gòu)

第一層主要是原始數(shù)據(jù)庫,在這一層,我們考慮到數(shù)據(jù)存儲、采集難度和成本方面的因素,盡可能在可控成本內(nèi)獲取到盡可能多的原始數(shù)據(jù),因為后面所有標簽體系構(gòu)建都將依托于原始數(shù)據(jù)庫的數(shù)據(jù)進行計算、分析、歸類、建模,所以在收集階段,原始數(shù)據(jù)庫的搭建要盡可能的全面,故在這一層的關(guān)鍵詞是:大量、數(shù)據(jù)。

而第二層級是根據(jù)第一層的原始數(shù)據(jù)通過算法計算、提煉、規(guī)劃成可以組成標簽體系的一系列通用標簽,而這類標簽的存在形式類似于矩陣或者多個類別的集合。

在業(yè)務(wù)需要時,該類標簽從數(shù)量和維度都可以增加以滿足業(yè)務(wù)需求。所以第二層的關(guān)鍵詞是:通用、標簽。

而對于第三層,我們可以通過對標簽的聚合、提煉、建模等方式構(gòu)成用戶的多個“面”,并運用于多個場景。例如:說小明在聽音樂時的畫像是搖滾、年輕、流行、活潑;而在學(xué)習時的畫像是認真、專心、投入、經(jīng)濟學(xué)等。

通過用戶不同的角度實際運用于各類業(yè)務(wù)需求,實現(xiàn)精準化。所以在第三層的關(guān)鍵詞是:聚合、運用。

02 標簽提煉

獲得了大量的原始數(shù)據(jù)后,我們想把這些數(shù)據(jù)運用起來,就需要把用戶的數(shù)據(jù)更加具象化。因為已經(jīng)把用戶數(shù)據(jù)采集起來了,基礎(chǔ)的標簽可以直接運用內(nèi)容的標簽,通過對用戶感興趣的內(nèi)容給用戶貼標簽。

1. 內(nèi)容標簽化

首先要把內(nèi)容標簽化了,根據(jù)行為的不同制定不同類別不同級別的標簽,可以是描述性,也可以是具象性的,根據(jù)實際業(yè)務(wù)需求去適應(yīng)即可,形式并不限制。但內(nèi)容的標簽最好具有通用性,可以是適用于采集到的用戶數(shù)據(jù)的大部分的主體內(nèi)容。例,房產(chǎn)類網(wǎng)站,這個類別的標簽可以是房子的區(qū)域、單價、面積、數(shù)量等。

內(nèi)容標簽化

內(nèi)容標簽化的時候需要注意,標簽值需要一個統(tǒng)一的維度,在維度統(tǒng)一的前提下,后期使用或者比較數(shù)據(jù)才具有對比性。例,圖1-3,區(qū)域的維度需要統(tǒng)一,如果決定是以行政區(qū)為維度,那么每個房源信息中的“區(qū)域”都需要以這個維度去統(tǒng)計,不能以其他維度進行統(tǒng)計。這個邏輯下來,房源id為101的標簽信息為:豐臺區(qū)、3單價、3套房源、40-50平方、….

2. 用戶標簽化

接下來就是把內(nèi)容所代表的標簽根據(jù)用戶的行為賦予在用戶身上,這個過程就要研究用戶的興趣傾向,通過對用戶行為的分析,判斷出用戶感興趣的內(nèi)容,把這部分內(nèi)容的標簽,提煉、聚合后賦予至用戶身上。

在用戶的行為數(shù)據(jù)中,我們可以根據(jù)記錄用戶對不同內(nèi)容的不同互動數(shù)據(jù),代表這個用戶對于當前內(nèi)容的興趣傾向程度。例,用戶的瀏覽(時長/頻率)、點擊、分享/收藏/關(guān)注等。

通過對不同行為進行賦值,我們就可以通過分值的計算得出用戶最感興趣的一組標簽。

在用戶的行為數(shù)據(jù)中,我們可以根據(jù)記錄用戶對不同內(nèi)容的不同互動數(shù)據(jù),代表這個用戶對于當前內(nèi)容的興趣傾向程度。例,用戶的瀏覽(時長/頻率)、點擊、分享/收藏/關(guān)注等。

通過對不同行為進行賦值,我們就可以通過分值的計算得出用戶最感興趣的一組標簽。

用戶行為賦值計算表

完成對于關(guān)鍵行為的權(quán)重分值計算后,我們需要把用戶數(shù)據(jù)按照上面內(nèi)容標簽化的方式打散成標簽,并且賦予其中,關(guān)鍵行為的對應(yīng)分值。

標簽賦值后優(yōu)先級排選邏輯

把標簽與分值關(guān)聯(lián)并進行計算。例,商品A的標簽“商品產(chǎn)地”的值有“福建、廣東、、云南、浙江、河北”等,通過分值計算,找到分值最高的值作為該用戶此標簽的值。

03 標簽聚合

首先將數(shù)據(jù)分為幾個大類,每個大類再進行逐層細分。在構(gòu)建標簽時,只需要構(gòu)建最下層的標簽,就能夠映射出上面兩級標簽。

標簽排序為一級>二級>三級,一級為上層標簽,三級為最下層標簽。

上層標簽都是抽象的標簽集合,一般沒有實用意義,只有統(tǒng)計意義。例,我們可以統(tǒng)計有用戶信息標簽的用戶比例,但用戶有用戶信息標簽,這本身對精準的推薦沒有任何意義。

底層標簽與上層標簽的聚合關(guān)系

首先,對于底層標簽有兩個要求:一個是每個標簽只能表示一種含義,避免標簽之間的重復(fù)和沖突,便于計算機處理;另一個是標簽必須有一定的語義,方便相關(guān)人員理解每個標簽的含義。

其次,標簽的粒度也是需要注意的,標簽粒度太粗會沒有區(qū)分度,粒度過細會導(dǎo)致標簽體系太過復(fù)雜而不具有通用性。

下面這張圖是我訓(xùn)練營當中的一個標簽庫資料,其中有很多標簽都是比較獨特的標簽:

那么此時該如何生產(chǎn)自己的標簽。

這里不得不說,在標簽體系當中,對于推薦,精準營銷等應(yīng)用場景來講,最常見,也是最常用的應(yīng)該是偏好類標簽,也就是用戶喜歡什么。

因此,我們加工的思路也就很直接了,通過用戶行為數(shù)據(jù)去進行偏好標簽的加工,這是業(yè)界最常用的標簽生產(chǎn)方式。

比如用戶三級類目偏好,通過用戶在平臺的瀏覽,收藏,關(guān)注,加購,下單等行為,完全可以反映出用戶的長短期興趣偏好。

04 總結(jié)

推薦策略是解決互聯(lián)網(wǎng)海量信息資源出現(xiàn)信息過載問題的方法,也是為了解決問題、提高效率的架構(gòu)體系。在做推薦策略前先問問自己要解決哪方面的問題,這個推薦策略能提高哪方面的效率,不要為了做推薦而做推薦,推薦策略更多的是平衡商業(yè)化和用戶體驗的一個解決方案,要考慮自己業(yè)務(wù)整體情況去酌情調(diào)整。

本文由人人都是產(chǎn)品經(jīng)理作者【夏唬人】,微信公眾號:【策略產(chǎn)品夏師傅】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!