關(guān)于內(nèi)容分發(fā)feed流的思考與總結(jié)
編輯導(dǎo)語:在現(xiàn)在這個內(nèi)容為王的時代,傳統(tǒng)的內(nèi)容信息流已經(jīng)呈現(xiàn)出了很大的弊端,無法再滿足用戶高效獲取特定內(nèi)容的需求了,這時feed流就應(yīng)運而生。Feed流,作為一種個性化的內(nèi)容推薦方式,也將在這個時代發(fā)揮出它更大的價值。本文作者關(guān)于內(nèi)容分發(fā)feed流,分享了一些思考與總結(jié)。
過去一年一直在做內(nèi)容分發(fā),昨天看了張小龍關(guān)于微信十年的分享,里面提到了視頻號做分發(fā)的過程,結(jié)合自己的理解,對過去一年的分發(fā)思考做一個總結(jié)。
但凡做過分發(fā)的人都知道,分發(fā)是由候選集+排序兩部分構(gòu)成。
一、候選集是你如何構(gòu)建分發(fā)的內(nèi)容池
候選集的范圍通常被產(chǎn)品的形態(tài)所限定,例如關(guān)注候選集,就是我所有關(guān)注用戶的內(nèi)容的集合。推薦候選集,就是所有站內(nèi)內(nèi)容的集合(有的產(chǎn)品也可以突破站內(nèi),例如搜索引擎)。
當(dāng)內(nèi)容量級比較大的時候,如果進(jìn)行全量計算,效率是很低的,所以如何通過科學(xué)的方式高效的構(gòu)建和定義候選集范圍,是產(chǎn)品經(jīng)理需要思考的問題,通常的做法有:
1. 時間聚類
只取一段時間內(nèi)的作品(例如最近3個月)這樣可以極大的減少數(shù)據(jù)量,并且如果是社區(qū)型產(chǎn)品,限定時間還有利于作者的正向激勵,把更多的曝光機(jī)會留給近期的活躍用戶和新用戶,從而實現(xiàn)優(yōu)質(zhì)創(chuàng)作者的挖掘、激勵閉環(huán)。
2. 標(biāo)簽聚類
通過人工或機(jī)器的方式,給內(nèi)容打上標(biāo)簽,通過同類標(biāo)簽進(jìn)行聚類。而標(biāo)簽的顆粒度和結(jié)構(gòu)設(shè)計(樹狀結(jié)構(gòu)或網(wǎng)狀結(jié)構(gòu)),決定了聚類的范圍和靈活度。
最簡單的結(jié)構(gòu)就是類似新聞網(wǎng)站的層級分類結(jié)構(gòu),例如新浪網(wǎng)的體育、軍事、娛樂(韓娛、好萊塢、綜藝)、財經(jīng)等。當(dāng)用戶之前看過一個或多個分類的情況下,用當(dāng)前分類的內(nèi)容構(gòu)建分發(fā)候選集。
3. 協(xié)同聚類
可以是人與人的協(xié)同(包括關(guān)系協(xié)同,例如我關(guān)注的人看過的內(nèi)容)也可以是物物協(xié)同。例如很多電商網(wǎng)站,買了這個的人還買了xx,就是這種方式的應(yīng)用。
二、排序是解決候選集內(nèi)容的顯示順序問題
主要做法有:
1. 時間排序
按照發(fā)布內(nèi)容先后順序排列。
2. 熱度排序
按照內(nèi)容的熱度倒序排列,熱度的定義根據(jù)產(chǎn)品的不同而不同,但通常用內(nèi)容的互動率來定義,同時還要兼顧新內(nèi)容的曝光機(jī)會(通常用時間衰減來實現(xiàn))。
主要熱度排序算法有hacker news的排序、Reddit的排序等,至于如何選擇,需要基于產(chǎn)品自身的特點判斷。例如新聞網(wǎng)站就需要強(qiáng)時間衰減的算法,知識類網(wǎng)站需要得票數(shù)超過一定閾值平滑過渡,讓更多新內(nèi)容能夠被曝光,使用Reddit算法更合適。
3. 模型排序
抽象各個維度的factor,灌入模型自動計算一個內(nèi)容對于各個factor的綜合權(quán)重,最后得出排序,模型排序通常是黑盒且不可解釋的,通常factor越多、可用數(shù)據(jù)行為越多,模型預(yù)測的準(zhǔn)確度越高。
維度包括但不限于:
- 用戶維度:用戶的性別、年齡、家鄉(xiāng)、學(xué)歷、興趣等;
- 關(guān)系維度:好友關(guān)系、關(guān)注關(guān)系、臨時關(guān)系;
- 內(nèi)容維度:基礎(chǔ)標(biāo)簽(例如音樂作品的歌曲名、藝術(shù)家等)、分類標(biāo)簽(基于人工或算法打的標(biāo)簽,例如曲風(fēng)、節(jié)奏等);
- 行為維度:互動(贊擴(kuò)評)、點擊、完播等等。
三、一些具體的case舉例
1. Case1:某內(nèi)容平臺日內(nèi)容量1w,良品率0.1%
產(chǎn)品形態(tài):日榜形式或單排時間流。
原因:可分發(fā)作品量級太少(日可分發(fā)作品=1w*0.1%=10),即使積累3個月也只有幾百量級且都是精品,無復(fù)雜計算的必要性。
2. Case2:關(guān)注流排序(人均關(guān)注人數(shù)*一段時間內(nèi)內(nèi)容發(fā)布率*人均發(fā)布條數(shù)? ≈?人均瀏覽條數(shù))
時間排序即可,為降低個別用戶頻繁發(fā)布對于瀏覽者體驗的影響以及對于其他用戶曝光的影響,可以在時間流的基礎(chǔ)上追加合并的邏輯。
3. Case3:關(guān)注流排序(人均關(guān)注人數(shù)*一段時間內(nèi)內(nèi)容發(fā)布率*人均發(fā)布條數(shù)? >> 人均瀏覽條數(shù))
出現(xiàn)了內(nèi)容過載的情況,可以采用熱度或親密度等排序算法。
4. Case4:某內(nèi)容采買平臺,日內(nèi)容量10w
1)候選集準(zhǔn)備
通過可以定義內(nèi)容標(biāo)準(zhǔn)的程序化維度對內(nèi)容進(jìn)行初篩,篩掉40%的劣質(zhì)內(nèi)容減少人工工作量(以一個人30s審核一個內(nèi)容為例,500-1000個/人),規(guī)則取決于內(nèi)容本身,如果是音頻,可以是時長、有效人聲比例等。
利用現(xiàn)有的格式化信息構(gòu)建基礎(chǔ)標(biāo)簽,例如音頻歌曲名、演奏者、年代等。通過一些技術(shù)手段協(xié)助人工打一些非標(biāo)準(zhǔn)化標(biāo)簽,例如人聲的性別識別、文本信息的nlp識別等。
2)排序
- 初期可采用熱度排序的方式保證feed流的質(zhì)量(這么大數(shù)據(jù)量級作品,純時間序質(zhì)量會很差),同時積累用戶行為數(shù)據(jù);
- 用固定曝光位的方式或者賽馬的方式(主要取決于可用流量的測算)完成新內(nèi)容的冷啟動,保證內(nèi)容能夠循環(huán)起來;
- 用探索的方式完成用戶的興趣識別,避免蠶房效應(yīng);
- 隨著內(nèi)容數(shù)據(jù)和行為數(shù)據(jù)的積累,逐步由熱度排序向模型排序過渡。
四、總結(jié)
以上的羅列可以囊獲大部分分發(fā)場景,但分發(fā)的核心并不是這一套邏輯框架,難點在于對產(chǎn)品本身內(nèi)容(質(zhì)量、數(shù)量)、資源(人力投入、采買成本投入)、價值主張(中心化、去中心化)等綜合評判的結(jié)果,這些因素都是動態(tài)變化的,所以分發(fā)的策略要隨之變化。
以上只粗糙的列舉了幾種case,具體的情況會復(fù)雜的多,需要結(jié)合產(chǎn)品的實際數(shù)據(jù)情況和實驗表現(xiàn)不斷調(diào)優(yōu),找到最適合的方式。
作者:產(chǎn)品經(jīng)理與哲學(xué)三觀;微信公眾號:產(chǎn)品經(jīng)理與哲學(xué)三觀
本文由 @產(chǎn)品經(jīng)理與哲學(xué)三觀原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理 ,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
優(yōu)秀
感謝,有興趣可以搜索公眾號「產(chǎn)品經(jīng)理與哲學(xué)三觀」,更多文章分享交流~