如何避免內(nèi)容重復(fù)推薦?聊聊去重服務(wù)

4 評(píng)論 11352 瀏覽 55 收藏 8 分鐘

“請(qǐng)不要再給我推一樣的內(nèi)容了,拜托?!痹诿鎸?duì)平臺(tái)一直跟你推薦同樣的內(nèi)容時(shí),你是否是一樣的想法。這樣情況是否有改善的方法?本文作者從這一問題出發(fā),對(duì)去重服務(wù)進(jìn)行了分析探討。

如果一個(gè)APP一直給你推薦同樣的東西,就像一個(gè)人在你面前絮絮叨叨同一件事情,你的心情想必非常糟糕。

去重服務(wù)在資訊APP中是一項(xiàng)基礎(chǔ)服務(wù),PUSH、圖文、視頻、直播等內(nèi)容業(yè)務(wù),甚至是作者編輯后臺(tái)都會(huì)需要使用。去重服務(wù)細(xì)拆開其實(shí)是很復(fù)雜的,也容易出現(xiàn)“眾口難調(diào)”的問題,因?yàn)橹貜?fù)的類型可能有:不同信息載體的重復(fù)(文章和文章、視頻和文章等)、不同場景的重復(fù)(feed流、正文頁等)、信息有無增量的重復(fù)(高度重復(fù)和一般相似等)……

  1. 無信息增量:包含的內(nèi)容是同樣的,用戶從該內(nèi)容中無法獲得差異化的信息和體驗(yàn)。
  2. 有信息增量:包含的內(nèi)容有部分相同或相似,即使之前已有相關(guān)的閱讀,但用戶從該內(nèi)容中仍可以獲得差異化的信息和體驗(yàn)。

對(duì)于第一種情況,是絕對(duì)去重,即將高度一致的內(nèi)容過濾掉,“多選一”。關(guān)鍵點(diǎn)是“如何挑出原創(chuàng)或質(zhì)量更高的內(nèi)容”,文章質(zhì)量、源質(zhì)量、發(fā)布時(shí)間、原創(chuàng)度可以幫上忙。所謂“道高一丈魔高一尺”,上網(wǎng)搜關(guān)鍵詞“躲避消重教學(xué)”,你會(huì)發(fā)現(xiàn)你要做的工作還有很多。

(圖片來自網(wǎng)絡(luò))

另外直播形式下的專題或機(jī)器批量生產(chǎn)的標(biāo)題,不同內(nèi)容的標(biāo)題可能一模一樣,為了避免誤傷太多內(nèi)容,需要細(xì)化去研究內(nèi)容的特性。

對(duì)于去重服務(wù),定義標(biāo)準(zhǔn)很重要,拿圖片重復(fù)來說:

(1)背景、人物動(dòng)作完全相同的圖片

(2)同一現(xiàn)場/背景,同一機(jī)位截圖,人物相同(人物動(dòng)作可能不同)


(3)某圖片的局部截圖(至少半圖及半圖以上)


以上三組圖片,在我們的認(rèn)知里一般屬于重復(fù),基于以上的定義,我們?cè)倏磶捉M圖片:

(娛樂類)同一綜藝節(jié)目,同一機(jī)位截圖,但人物不同:


(游戲類)同一款游戲,不同背景截圖:


(游戲類)同一游戲背景截圖,游戲人物不同:


(母嬰類)新生寶寶圖:


如果按先前三組的定義,以上圖片屬于重復(fù),但從我們的日常體驗(yàn)?zāi)苤溃鼈兪遣灰粯拥膬?nèi)容(只是同個(gè)系列),所以,區(qū)分分類(category)做細(xì)化的定義很有必要,只有這樣機(jī)器才能按照人的期望學(xué)習(xí)并輸出可用的結(jié)果。

除了內(nèi)容,圖片重復(fù)的形式也要定義,如在feed流里:


對(duì)于有信息增量的情況,處理方式要精細(xì)得多,面對(duì)的是“怎么推”的問題??梢钥紤]“分層定義->分場景限制”的推薦策略。定義文章相似,能用來輔助判斷的元素有:

  1. 標(biāo)題
  2. 摘要
  3. 圖片
  4. 正文
  5. 類別

視頻還有物理時(shí)長、音頻、字幕等。

我們先來看看標(biāo)題相似(內(nèi)容相似或體感相似)的case:標(biāo)題主體或關(guān)鍵詞不同或模糊不清,強(qiáng)調(diào)的主旨相同,用詞或長或短;同一事件不同角度:


其中,容易被機(jī)器識(shí)別為相似從而產(chǎn)生badcase(會(huì)降低內(nèi)容的分發(fā)效率),產(chǎn)品汪需要留意一下:

  1. 不同主體同一方面
  2. 同一主體的不同方面
  3. 強(qiáng)本地屬性的類似事件
  4. 同一領(lǐng)域中關(guān)聯(lián)度較高的事件
  5. 同一領(lǐng)域(如星座、育兒)實(shí)體或關(guān)鍵詞相似,但事件面不同
  6. 同屬一賽事(如世界杯),不同賽事
  7. 體育球星、會(huì)議與政策之間等不同面

當(dāng)NLP能較準(zhǔn)確識(shí)別相似內(nèi)容時(shí),分場景限制的策略可以從哪些維度入手?

  1. 時(shí)間間隔去重:如操作時(shí)間在12小時(shí)之內(nèi),做嚴(yán)格的相似過濾邏輯
  2. 刷數(shù)去重:如鄰近50刷,做嚴(yán)格的相似過濾邏輯
  3. 事件去重:如同一事件內(nèi)容不得黏連
  4. POI(興趣點(diǎn))/Keyword(關(guān)鍵詞)去重:如同一刷同一個(gè)POI不得超過3個(gè),重排打散
  5. 源去重:如同一刷同一個(gè)源的文章不得超過1篇

還可以對(duì)不同用戶(如投訴過重復(fù)老舊的用戶、新老用戶)做不同程度的控制;也可以根據(jù)相似度將相似分層,做不同程度的控制;也可根據(jù)事件的熱度,做不同程度的控制;也可以根據(jù)用戶的興趣的濃度做不同程度的控制。

去重力度需要產(chǎn)品汪把控,而且去重工作中還有很多內(nèi)容需要確認(rèn):比較的對(duì)象、信息載體、時(shí)間長短、數(shù)據(jù)來源等等。沒有最佳方案,本文旨在引發(fā)思考且補(bǔ)全思路,只有不斷測試,才能找到適合自己產(chǎn)品的組合方案。

 

本文由 @張小喵Miu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 很受用 感謝

    來自北京 回復(fù)
  2. 沒信息量啊

    回復(fù)
    1. 還好呀,感覺挺有用的

      來自北京 回復(fù)
    2. 請(qǐng)問是推薦業(yè)務(wù)的小伙伴嗎?

      來自浙江 回復(fù)