推薦策略產品經理必知必會②:三大常見的召回策略
數據是一切的開始,而召回決定整個推薦系統的上限,如果一開始就召回錯了的話,整個系統的推薦效果將會很差。
常見的召回策略有以下三種:
一、規(guī)則召回
最常用的召回策略,解釋性最強。
優(yōu)點:策略邏輯清晰明了,業(yè)務意義明確,可解釋性極強
缺點:個性化弱,千人一面,易引起馬太效應,頭部曝光越來越多。
適用場景:最開始搭建推薦系統時
標簽召回
使用方式:最早應用于音樂與電影網站,同時對內容和用戶打標,計算兩者的標簽重合度。
核心問題:如何構建科學全面的標簽體系、如何為用戶和內容打標,主流打標方式仍為人工打標。
高質量分召回&類目召回
使用方式:電商推薦和內容推薦場景,適合用于新人冷啟動。
舉例:電商領域通過歷史銷量、好評率、收藏數等綜合評估物料的質量分;內容通過瀏覽量、互動數來綜合評估。
注:為質量因子配備超參數,超參數決定該部分在整個公式的重要度,為人工設定,參數為模型訓練得到。
質量因子歸一化:Min-Max歸一化公式進行,對于電商不同類目需要分類目進行歸一化,防止極大差異影響。
熱銷召回
使用方式:召回近期熱門的物料,適合用于新用戶召回策略,“熱門”由業(yè)務進行自行定義,需要設計統計周期(長、中、短)為x、y、z。
高點擊率召回
使用方式:召回“CTR預估模型”這一核心指標
復購召回
使用方式:生鮮電商領域經常使用
實現方式:基于用戶維度統一其購買的商品,使用Min-Max歸一化方式,在綜合電商領域一般,大宗商品會讓用戶印象差
二、協同過濾
推薦系統最經典的算法,包括基于物料(Item-CF,1998)的算法和基于用戶(User-CF,1992)的算法,即“協同+過濾”,利用群體數據去尋找規(guī)律,測定物料間、用戶間的相似性,排除相似度低的物料與用戶,后再進行排序。
核心問題:如何計算物料與物料之間、用戶與用戶之間的相似度
優(yōu)點:算法邏輯較簡單,容易實現,同時又有不錯的效果,具備一定的個性化
缺點:與規(guī)則召回缺點方向一致,冷啟動問題明顯,存在一定的馬太效應,頭部熱門問題容易與其他商品產生關聯
1.挖掘與目標用戶相似的用戶集合,取相似度排在前幾位的用戶作為候選集。
Jaccard系數:Wab = 0.4; Wac = 0.25; Wad = 0.2; Wae = 0.75,B、E最高
2.挖掘該集合中受歡迎的物料,從中為目標用戶推薦他沒有接觸過的物料。
B、E瀏覽的商品中,A為瀏覽過d、e,估算其興趣度
P(A,d) = 0.4*1+0.75*0 = 0.4;P(A,e) = 0.4*1+0.75*1=1.15,故而A對e商品的興趣度高選擇e商品為用戶推薦
基于物料的協同過濾(Item算法):目前在各大互聯網公司應用十分廣泛,用余弦相似度計算。
舉例如下,6個用戶和5個商品。
計算商品間的相似度:余弦定理計算商品間的相似度
基于目標用戶歷史瀏覽行為和商品間的相似度,為其推薦感興趣且未瀏覽過的商品
本文只有5個商品,目標A瀏覽過a、b、c。沒有瀏覽過d、e,所以預估P(A,d)、P(A,e)。
P(A,d) = 0.5*1+0*1+0.67*1=1.17
P(A,e) = 0.5*1+0.35*1+0.89*1=1.74
所以優(yōu)先為用戶A推薦商品e。
UserCF算法與ItemCF算法的異同點 總結
基于圖模型的方法(graph-based model)
主要分為兩大步:
1)將數據表格轉化為二分圖
2)基于兩個頂點的路徑數、路徑長度及經過的節(jié)點出度判斷相關性。
例:“A——a——B——c”,路徑長度為3,A到c只有一條路徑,而A到e有兩條,A與e關聯性強于A與c。
A到e的兩條路徑哪個相關性更強,比較出度(該頂點對外連接了幾個其他的頂點),出度越大,相關性越弱。
三、基于向量的召回
1. 隱語義模型
最經典的應用就是隱語義模型,或者稱為隱向量模型。
在現實中,用戶與物料間的矩陣是非常稀疏的,很難進行預估,而隱語義模型的思想是挖掘用戶和物料間的特征屬性,將用戶和物料歸到相同的特征維度,一般為四象限維度,然后再進行比較。
核心:將一個共現矩陣(用戶和物料的交互矩陣)分解成兩個小矩陣(用戶矩陣和物料矩陣),兩個矩陣在相同的向量維度上。
矩陣的常見分解方法有三種:
方法一:特征值分解
只能作用于NxN矩陣,大多數用戶x物料矩陣并非方矩陣,不具有適用性。
方法二:奇異值分解
適用于所有MxN矩陣,但是對于矩陣的稠密度要求高,應用時必須把缺失值用近似值、平均值補全,計算復雜、資源要求高。
方法三:梯度下降法
Funk SVD,又稱LFM,將預測值與實際評分值比較,損失函數為均方差,利用梯度下降進行迭代,直到模型收斂。
隱語義模型優(yōu)缺點:
優(yōu)點:
1)泛化能力強。一定程度上緩解矩陣稀疏問題
2)計算復雜度低。計算復雜度為(m+n)*k,而協同矩陣為m*m或者n*n
3)更好的靈活性和擴展性??梢耘c其他特征組合或拼接,也可以和深度學習神經網路哦結合
缺點:
僅考慮用戶和物料各自的特征,不方便加入用戶、物料、上下文特征以及其他一些交互特征,模型本身具有一定局限性。
2. 雙塔模型
來源:源自DSSM模型(deep structured semantic model),最初為了解決NLP中語音相似度問題。
應用方式:利用深度神經網絡將文本表示為低緯度向量,將檢索詞、文檔分別嵌入兩個向量他,計算兩個向量間的余弦相似度,后歸一化可以得到其相關性。
例:DSSM模型在訓練時,正樣本為該檢索詞下曾被點擊過的文檔集合D+,負樣本為用戶未點擊過的文檔集合。最終得到檢索詞和文檔的語義向量維度(128維),然后計算兩個向量間的余弦相似度,最后通過SoftMax函數進行歸一化,得到檢索詞和每一個文檔的相關性。
雙塔模型為一種模型思想,而非一種具體的模型。主要分為輸入層、表示層、匹配層三層。
- 輸出層:用戶與物料各自獨立的特征,沒有交叉特征,進行各自特征編碼和拼接。
- 表示層:DNN訓練后得到收斂變量,用戶、物料的輸出特征維度必須相同。
- 匹配層:計算用戶向量與物料向量的相似度,主要用余弦相似度計算。cos越大越相似。
雙塔模型在實際應用中主要作為召回模型來使用,召回模型的核心要素就是正負樣本的選擇。正樣本為用戶曾經點擊過的物料,而負樣本的篩選很有藝術性,如果如同精排模型使用線上曝光但未點擊的物料作為負樣本,會導致樣本選擇偏差(SSB,sample selection bias)。因為精排模型與召回模型的候選集是不同的。
負樣本的選擇方式有很多,常規(guī)方式便是從整體物料庫中隨機抽取,選擇更多物料讓模型學習。
雙塔模型的實際應用網上可以查詢些哦!流程:提前備好數據庫,用戶訪問讀取,更新用戶庫,檢索興趣推薦。
優(yōu)點:
雙塔模型能對用戶塔和物料塔進行解耦,離線訓練好數據再進行線上部署,線上讀取、計算速度很快,解決了推薦系統的工程性能問題,相比其他模型推薦的整體效果更好。
缺點:
與隱語義模型相同,沒有用到用戶和物料的交叉特征。
四、召回策略的效果評估
線上效果評估:簡單直接的AB Test小實驗。先通過離線評估確定新的召回策略,再進行線上AB Test小流量試驗。
離線效果評估:主要評估單個召回分支返回的物料和實際線上曝光與點擊物料之間的重合度,越高召回效果越好。
各路召回的貢獻度歸因:每一路召回產生的實際線上效果不一樣,基礎條件之一是點擊曝光埋點里有針對不同召回分支的埋點標識。主要有三種方式:物料歸因計算相同貢獻;歸一化分數統一量綱歸因于召回分支分數最高的一路;權重歸因,對各支路權重進行分數匯總,再按權重歸因。
召回模塊為整個推薦系統的基礎,策略產品經理只有明白每一種召回策略的底層邏輯才能深度參與到召回策略的設計中,為不同用戶、不同場景定制召回策略。
本文由 @策略產品經理規(guī)劃 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!