廣告策略產(chǎn)品(4):推薦系統(tǒng)召回策略那些事兒
推薦系統(tǒng)中的召回,需要從整個(gè)信息集合中挑選出盡可能多的相關(guān)結(jié)果,剔除相關(guān)性較弱的結(jié)果,降低排序階段的工作量。本文作者對(duì)推薦系統(tǒng)的召回策略展開分析,希望對(duì)你有幫助。
哈嘍大家好,我是策略產(chǎn)品經(jīng)理Arthur,目前在某頭部互聯(lián)網(wǎng)公司任職廣告策略產(chǎn)品專家。分享完推薦系統(tǒng)排序那些事兒,今天我們繼續(xù)介紹召回的那些事兒。那篇文章發(fā)表之后有很多朋友在評(píng)論區(qū),希望我詳細(xì)拆講一下各個(gè)模塊的策略,話不多說(shuō)我們直接上肝貨。
那么應(yīng)大家的需求過(guò)來(lái)拋磚引玉給大家講講推薦系統(tǒng)的召回,幫助各位對(duì)推薦策略產(chǎn)品感興趣的同學(xué)建立一下基礎(chǔ)認(rèn)知;我將分為三個(gè)部分來(lái)介紹:
- 什么是召回,召回在做一件具體什么樣的事情;
- 目前工業(yè)界有哪幾種主流的召回方式;
- 各種召回方優(yōu)缺點(diǎn)及其應(yīng)用場(chǎng)景;
一、什么是召回,召回具體在做一件什么樣的事兒
召回Matching從整體思路與作用上是完全與排序?qū)α^(qū)分開的存在,指的是從全量的信息item集合中出發(fā)盡可能多的正確結(jié)果,通過(guò)對(duì)大而全的輸入集合輸入到排序模塊進(jìn)行順序排序,為排序提供候選集合。
- 召回特點(diǎn):保證相關(guān)集合的量大、處理的速度要夠快,并且模型使用比較簡(jiǎn)單,特征選取比較少。
- 排序特點(diǎn):物料集合精煉、那么特征就會(huì)要求復(fù)雜,模型也會(huì)復(fù)雜,最終呈現(xiàn)的結(jié)果需要準(zhǔn),抓住用戶興趣點(diǎn);
推薦系統(tǒng)中的召回面對(duì)的是全量信息池,需要從整個(gè)信息集合中挑選出盡可能多的相關(guān)結(jié)果,剔除相關(guān)性較弱的結(jié)果,降低排序階段的工作量。
二、目前工業(yè)界有哪幾種主流召回方式
目前工業(yè)界推薦系統(tǒng)的主流召回方式包含三種分類:基于規(guī)則標(biāo)簽類召回、協(xié)同過(guò)濾召回方式、模型向量召回的方式。
在介紹每一種召回方式之前,大家要厘清一個(gè)概念,一般推薦系統(tǒng)的搭建不會(huì)是單一維度的召回,因?yàn)樗媾R的業(yè)務(wù)場(chǎng)景復(fù)雜(需要考慮無(wú)數(shù)據(jù)冷啟動(dòng)狀態(tài)、考慮用戶與物料之間的狀態(tài)、物料與物料的狀態(tài)),一般是多類型的召回方式協(xié)同,最終進(jìn)行多路歸一化進(jìn)行并存,這個(gè)就叫做多路召回,核心是為了避免召回結(jié)果單一規(guī)則束縛,使得與推薦系統(tǒng)內(nèi)容豐富性效果相違背。
2.1 基于規(guī)則、標(biāo)簽類的召回
與其說(shuō)是一種常規(guī)的召回方式,不如說(shuō)是一種運(yùn)營(yíng)規(guī)則配置規(guī)則,可解讀性最好的召回方式,一般邏輯清晰明了,基于推薦系統(tǒng)的業(yè)務(wù)目標(biāo)進(jìn)行簡(jiǎn)單的規(guī)則召回,這里拿抖音舉例子。
熱門規(guī)則召回:
比如近 7 天完整播放率比較高的短視頻,可以結(jié)合互動(dòng)點(diǎn)擊率CTR 和時(shí)間戳衰減,例如30天、7天做平滑的視頻物料,這部分主要基于數(shù)據(jù)統(tǒng)計(jì)規(guī)則實(shí)現(xiàn)并進(jìn)行展現(xiàn)即可,例如墊底辣孩的國(guó)風(fēng)少年系列、超模系列。
但是由于熱門 item召回和推薦過(guò)多其實(shí)容易導(dǎo)致視頻馬太效應(yīng),這其實(shí)不利于其他用戶的視頻召回展現(xiàn),從而破壞了抖音短視頻的豐富多態(tài)。如果熱門召回占整體通路比例過(guò)大,可以考慮做一定打壓,也就是在前面的權(quán)重當(dāng)中降低權(quán)重系數(shù)(例如從0.5降低到0.3)。
運(yùn)營(yíng)標(biāo)簽、召回:
例如運(yùn)營(yíng)構(gòu)建的各個(gè)類目的PCG時(shí)效榜單,例如國(guó)風(fēng)美少年、光劍變裝榜單召回,還有就是時(shí)下熱點(diǎn)新聞,例如冬奧會(huì)谷愛凌視頻等,這種大家喜聞樂見的視頻,但是一定要注意對(duì)于時(shí)間戳的控制。
比如已經(jīng)到了夏天還召回大量冬奧會(huì)谷愛凌奪冠的視頻,這樣就不合適了,畢竟新聞注重的就是時(shí)效性。
2.2 協(xié)同過(guò)濾召回
協(xié)同過(guò)濾(collaborative filtering)是一種在推薦系統(tǒng)中廣泛使用的技術(shù),最早誕生與1992年,該技術(shù)通過(guò)分析用戶和用戶之間或者用戶和是事物之間的相似性(“協(xié)同”),通過(guò)互斥相差異的性質(zhì)排除掉相斥的物料和用戶(“過(guò)濾”),來(lái)預(yù)測(cè)用戶可能感興趣的物料內(nèi)容并將此內(nèi)容推薦給用戶,核心分成兩大類,一大類基于用戶相似性召回的方式叫做User-CF即用戶協(xié)同過(guò)濾,一種基于物料item相似性召回的方式即Item-CF物料協(xié)同過(guò)濾;
2.2.1 基于用戶的協(xié)同過(guò)濾User-CF ;
給大家舉個(gè)例子,用戶A、B、C、D在電商平臺(tái)對(duì)商品書本、計(jì)算器、顯示器和衣服表達(dá)了自己的評(píng)價(jià)愛好,喜歡用1,無(wú)感用0,不喜歡用-1,縱左邊為用戶編號(hào),橫坐標(biāo)為商品類型,基于上述用戶反饋表現(xiàn),我們構(gòu)建出共現(xiàn)矩陣如下:
計(jì)算用戶E和其他的用戶之間相似度,可以發(fā)現(xiàn)用戶E對(duì)商品興趣的行向量為:
我就可以通過(guò)K鄰近的方式選出相速度TopN的用戶數(shù),可以看出用戶E對(duì)四個(gè)商品的偏好和B最相似,其次是C,那么接下來(lái)我將會(huì)把B、C感興趣且沒有對(duì)E進(jìn)行曝光過(guò)的商品對(duì)E進(jìn)行曝光,以上的邏輯其實(shí)就是User-CF的大體思路;對(duì)于User-CF計(jì)算用戶之間相似度的方法有很多,有Jaccard距離、余弦相似度、歐式距離等多種。
在得到最終的TopN個(gè)用戶之后,還需要對(duì)用戶的評(píng)分做加權(quán)平均,計(jì)算用戶用戶之間相似度,以及用戶i對(duì)p的評(píng)分,最終算出用戶E對(duì)B、C關(guān)聯(lián)的商品興趣度,得到的排序靠前的結(jié)果即可進(jìn)行召回。
2.2.2 基于物料的協(xié)同過(guò)濾Item-CF
最早是Amazon在2001年提出的理念,核心思想是基于物料之間的相似度,來(lái)構(gòu)建兩兩物品之間的相似度矩陣,這個(gè)地方的相似度不是指代的分類與標(biāo)簽這種類型(如何是簡(jiǎn)單的標(biāo)簽就是變成前文提到的規(guī)則類召回了),而是通過(guò)多個(gè)用戶對(duì)商品之間行為的相似性,來(lái)構(gòu)建物料Item相似性的關(guān)系,這是Item-CF的核心思想。
這里再拿上面的內(nèi)容舉個(gè)例子,書本和手機(jī)被A、B、C、D都連續(xù)評(píng)價(jià)了喜歡,而手機(jī)和顯示器只被A、C、D 三位用戶評(píng)價(jià)了喜歡,那么通過(guò)構(gòu)建物品的相似度矩陣,通過(guò)用戶的正向反饋行為,就可以得到書本和手機(jī)最為相似、其次手機(jī)和顯示器也比較相似,通過(guò)這樣的計(jì)算思路和理念,我們也可以構(gòu)建一個(gè)相似的共現(xiàn)矩陣。
如果用戶E來(lái)到了電商平臺(tái)對(duì)手機(jī)給出了好評(píng)的話,那么我們認(rèn)為E對(duì)于書本、顯示器也會(huì)比較感興趣,因?yàn)闀竞褪謾C(jī)、手機(jī)和顯示器比較相似度高,Item-CF核心就是構(gòu)建Item物料的相似度。
構(gòu)建完成TopN個(gè)相似的物品,然后通過(guò)計(jì)算物品和用戶歷史瀏覽評(píng)分的加權(quán)和得到最終的結(jié)果,對(duì)TopN個(gè)用戶E可能感興趣的商品召回回來(lái)。
總體來(lái)看,協(xié)同過(guò)濾就是通過(guò)物體與用戶之間相似度關(guān)系來(lái)構(gòu)建共現(xiàn)矩陣,然后通過(guò)距離、相似度計(jì)算的方法來(lái)構(gòu)建出用戶可能的興趣點(diǎn)再來(lái)進(jìn)行召回,詳細(xì)的應(yīng)用場(chǎng)景可以見文章結(jié)尾。
2.3 向量Embedding召回方式
向量embedding其實(shí)就是用一個(gè)低維稠密的有方向有長(zhǎng)度的線性表示一個(gè)對(duì)象,也就是通過(guò)數(shù)學(xué)的方式來(lái)代表一個(gè)對(duì)象,這里的對(duì)象可以是一個(gè)詞、一個(gè)商品,也可以是一篇新聞、一部電影,等等。
如果一本英語(yǔ)詞典有10萬(wàn)個(gè)單詞,那么表示十萬(wàn)個(gè)維度,我們轉(zhuǎn)化成為低維度的稠密向量,這樣就可以計(jì)算詞之間的相似度了,這個(gè)模型就是embedding產(chǎn)生的過(guò)程,這就是word2 Vec的基本思路。經(jīng)過(guò)向量化之后發(fā)現(xiàn)man 和 woman 這兩個(gè)單詞通過(guò)歐式距離計(jì)算是距離最近的,我們就可以理解為四個(gè)單詞是最相近的。
同樣的道理放在召回上也是一樣,我們把物料和用戶構(gòu)建向量相似性拆分開就可以得到,在推薦系統(tǒng)中比較典型的幾種召回方式像是i2i(item2item)召回(有Graph Embedding的i2i召回、內(nèi)容語(yǔ)義的i2i召回)、對(duì)于u2i召回(即user2item召回方式)有經(jīng)典的DSSM雙塔召回、還有Youtube深度學(xué)習(xí)召回方法,在這里給大家舉例DSSM雙塔召回,這個(gè)是2013年微軟研究發(fā)表的一篇論文。
DSSM雙塔結(jié)構(gòu),兩遍分別輸入user特征(各種復(fù)雜特征畫像:消費(fèi)能力、標(biāo)簽喜好、在線行為等等)和廣告ad特征(新聞廣告投放的item詞特征、圖片特征以及詞特征等等),經(jīng)過(guò)DNN變化之后分別產(chǎn)出user和ad向量Embedding。
DSSM的user和ad側(cè)是兩個(gè)獨(dú)立的自網(wǎng)絡(luò),離線產(chǎn)出user embedding和ad embedding 后存儲(chǔ)在redis數(shù)據(jù)庫(kù)中,在召回的時(shí)候去計(jì)算兩者的余弦相似度相似度/Jaccard系數(shù)或者是歐式距離選取K鄰近的TopN個(gè)廣告單元id,為訪問(wèn)用戶選擇興趣度最高的廣告類型,降低用戶對(duì)廣告的排斥心理,這樣就完成了廣告推薦任務(wù)。
這里給大家推薦一下Airbnb在18年8月在KDD發(fā)表的基于用戶短期興趣和長(zhǎng)期興趣的Embedding召回方式,基于實(shí)際業(yè)務(wù)和數(shù)據(jù)的特點(diǎn),Airbnb搭建了基于短期興趣房源Embedding和基于長(zhǎng)期興趣的房源Embedding,效果非常好,大家感興趣可以去了解一下。
三、關(guān)于對(duì)召回的總結(jié)
最后和大家做一下總結(jié),其實(shí)上述多種召回方式都會(huì)在一個(gè)推薦系統(tǒng)并存,每種召回方式都有其特點(diǎn)和使用場(chǎng)景,最終在召回匯的時(shí)候多路召回權(quán)重歸一化;每種召回都有特定的場(chǎng)景來(lái)使用。
規(guī)則類召回:更多的使用在用戶在未產(chǎn)生數(shù)據(jù)冷啟動(dòng)階段(無(wú)標(biāo)簽、無(wú)行為數(shù)據(jù),模型巧婦難為無(wú)米之炊),通過(guò)規(guī)則選出TopN來(lái)讓用產(chǎn)生一些列的平臺(tái),積累用戶行為數(shù)據(jù),這種召回方式的特點(diǎn)是可解釋性強(qiáng),但是個(gè)性化能力不足,馬太效應(yīng)聚集明顯。
協(xié)同過(guò)濾類型:
- 基于用戶協(xié)同過(guò)濾User-CF:在新聞等流媒體平臺(tái)使用較多,通過(guò)用戶之間的的相似性,來(lái)推薦未看過(guò)的新聞內(nèi)容,這種社交網(wǎng)絡(luò)顯示用戶推薦來(lái)源,可以增加推薦內(nèi)容的信服度;
- 基于物料的協(xié)同過(guò)濾Item-CF:在電商平臺(tái)使用較多,因?yàn)樵陔娚唐脚_(tái)上物品的數(shù)據(jù)穩(wěn)定性更強(qiáng)不會(huì)隨時(shí)更換,計(jì)算物品相似度相對(duì)來(lái)說(shuō)計(jì)算復(fù)雜度更低一點(diǎn);
雙塔模型DSSM向量Embedding召回:相對(duì)來(lái)說(shuō)應(yīng)用場(chǎng)景就非常廣了,無(wú)論是廣告、自然推薦系統(tǒng)當(dāng)中都廣泛應(yīng)用,讀取和計(jì)算速度很,個(gè)性化能力較強(qiáng)推薦效果較好,缺點(diǎn)就是可解釋性較差,交叉特征缺失,整體交叉特征發(fā)揮的效果優(yōu)勢(shì)比較少。
本文由 @策略產(chǎn)品Arthur 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
產(chǎn)品經(jīng)理需要知道具體算法嗎
產(chǎn)品經(jīng)理需要知道業(yè)務(wù)場(chǎng)景的建模由來(lái),具體的算法建議還是作為了解,背后選擇的模型類型有什么特性,入?yún)⒊鰠槭裁?,?shí)驗(yàn)結(jié)果如何調(diào)整,業(yè)務(wù)效果如何做實(shí)驗(yàn)都是策略產(chǎn)品需要知道的。
這些算法的學(xué)習(xí)都可以在哪里找到渠道呀?