說說智能推薦的那些事兒
編輯導(dǎo)語:有人認(rèn)為,智能推薦是一個(gè)偉大創(chuàng)造,是信息時(shí)代必不可少的工具。與此同時(shí),有人急切的想要拒絕智能推薦,認(rèn)為這種追蹤是對(duì)個(gè)人隱私的侵犯,也有人認(rèn)為智能推薦會(huì)使我們獲取的信息越來越狹窄、越來越片面從而走進(jìn)信息繭房。今天這篇文章中,作者就來為我們說說智能推薦的那些事兒。
一、智能推薦的重要性
智能推薦是非常重要的數(shù)據(jù)產(chǎn)品,是比較早期的實(shí)現(xiàn)了智能化、自動(dòng)化的的數(shù)據(jù)產(chǎn)品。在現(xiàn)在的科技發(fā)展中,客服智能化了么?沒有~優(yōu)惠券?定價(jià)?都還沒有智能化,只有分發(fā)實(shí)現(xiàn)了智能化。
字節(jié)跳動(dòng)做智能推薦很厲害,對(duì)公司的業(yè)務(wù)產(chǎn)生了巨大的變革,所以今天我們把智能推薦這個(gè)事情來講講清楚,讓大家明白明白。
二、智能推薦的背景
用戶越來越多,商品越來越多,那么用戶想要找到想要找到的商品也越來越困難,讓某個(gè)或某些產(chǎn)品在眾多產(chǎn)品中脫穎而出也是特別特別的困難,簡(jiǎn)單的來講就是供需匹配,兩者無法匹配的上,所以怎么辦呢?如何解決這個(gè)問題呢?
三、各類方案解決的優(yōu)劣
所以當(dāng)前有這么幾種解決方案,分別是搜索引擎、分類目錄和智能推薦,接下來我們就簡(jiǎn)單介紹一下這三種解決方案的優(yōu)劣勢(shì)。
1. 搜索引擎
需要用戶主動(dòng)去搜索,這個(gè)是百度干的事兒,但是這個(gè)時(shí)候是需要用戶的目的性很強(qiáng)才行,要知道自己想要什么,但是很多時(shí)候我們并不知道我們想要什么東西,我也不想去絞盡腦汁去想我要什么,只想放松,那搜索可以做到么?做不到,可能搜索出來的東西并不是可以滿足我們的東西~
2. 分類目錄
在這個(gè)里面,我們要知道我們想要的東西屬于哪一種屬性,知道了之后才能去找,如果分類屬性選擇錯(cuò)了,那就在當(dāng)下這個(gè)錯(cuò)的目錄里面永遠(yuǎn)也找不到我想要的東西。而且一旦我不清楚我自己想要什么的時(shí)候,面對(duì)紛繁復(fù)雜的分類目錄,更是無從下手~
3. 智能推薦
而智能推薦呢?我不需要用戶提供明確的需求,我只需要根據(jù)用戶的歷史行為去建模,然后根據(jù)他們的歷史行為判斷接下來的行為和喜好,去給用戶做相對(duì)應(yīng)的內(nèi)容、產(chǎn)品推薦。所以當(dāng)用戶沒有明確的目的的時(shí)候,也可以幫助用戶發(fā)現(xiàn)新內(nèi)容。
四、智能推薦的機(jī)制
1. 人
建立用戶畫像,給用戶打上事實(shí)標(biāo)簽和模型標(biāo)簽,什么是事實(shí)標(biāo)簽?就拿虛擬人物“小明”舉個(gè)例子吧!小明經(jīng)常在某購物平臺(tái)上購物,并已完善自己的個(gè)人信息,那么平臺(tái)就會(huì)把該信息收集,作為事實(shí)標(biāo)簽。
- 姓名:小明
- 性別:男
- 身高:180cm
- 體重:70kg
- 愛好:看電影
- 職位:產(chǎn)品經(jīng)理
- 目前所在地:上海
- 消費(fèi)等級(jí):極高(根據(jù)日常消費(fèi)習(xí)慣判斷)
- 常看類型產(chǎn)品:高科技產(chǎn)品、數(shù)碼產(chǎn)品、大牌運(yùn)動(dòng)鞋
那什么是模型標(biāo)簽?zāi)兀烤褪窍到y(tǒng)可能會(huì)把一類人劃分為一個(gè)模型,他們的事實(shí)標(biāo)簽可能會(huì)比較相似,這就是一個(gè)模型標(biāo)簽。
我接著拿玉康舉例子:比如說系統(tǒng)給他們這一類人建的模型標(biāo)簽名稱是“大款”,那可能別的某個(gè)大款看上了一個(gè)布加迪,加購并付款了,雖然孫玉康沒有看這個(gè)產(chǎn)品,但是可能布加迪及相關(guān)產(chǎn)品也會(huì)出現(xiàn)在孫玉康的推薦列表中。
2. 貨(內(nèi)容)
給內(nèi)容或產(chǎn)品打上標(biāo)簽,比如一個(gè)運(yùn)動(dòng)上衣,可能會(huì)有夾克、運(yùn)動(dòng)、長(zhǎng)袖、外套等等各種各樣符合這個(gè)產(chǎn)品的標(biāo)簽,并記錄這個(gè)產(chǎn)品的售賣數(shù)量,收藏、加購的數(shù)量等。
然后通過人貨模型,就可以知道,比如說:年輕的女孩子,喜歡口紅,包包、購物、逛街;年輕的男孩子,喜歡女孩子,喜歡手機(jī)、手表、汽車,然后怎么匹配呢?
3. 場(chǎng)
就是在對(duì)應(yīng)的場(chǎng)里做匹配,比如說首頁、Feed流、導(dǎo)航欄、個(gè)人中心等等,在你想要的場(chǎng)景匹配上你所需要的數(shù)據(jù)。
然后我可能有了這個(gè)標(biāo)簽的推薦方法,我把一個(gè)東西推給一部分人,然后這部分人很喜歡這個(gè)東西,那我就可以把這個(gè)東西推給更多類似的用戶了,然后不停不停的去擴(kuò)展流量,我就知道每個(gè)用戶喜歡什么東西了。
五、智能推薦系統(tǒng)的框架
1. 數(shù)據(jù)采集
怎么去采集???要去做埋點(diǎn),要去記錄用戶的數(shù)據(jù)。
比如說一個(gè)用戶打開了我們的某小程序,他注冊(cè)的信息是什么?他是幾點(diǎn)打開的,幾點(diǎn)關(guān)閉的小程序,查看了哪些頁面,瀏覽了哪些產(chǎn)品,每個(gè)頁面的停留時(shí)間是多久,用的4G還是5G還是WIFI啊,在哪兒?
這時(shí)候用戶數(shù)據(jù)和行為數(shù)據(jù)都知道了,那什么是內(nèi)容數(shù)據(jù)呢?比如說抖音,億萬的人在抖音產(chǎn)生了千億條抖音短視頻,這些都是內(nèi)容數(shù)據(jù)。
2. 數(shù)據(jù)整理
采集到數(shù)據(jù)之后,就要把數(shù)據(jù)做標(biāo)注,數(shù)據(jù)標(biāo)注的類型有:圖片標(biāo)注、語音標(biāo)注、文本標(biāo)注、視頻標(biāo)注、道路標(biāo)注、行人標(biāo)注、人臉106點(diǎn)、圖像語義分割等。
然后有些數(shù)據(jù)是重復(fù)的,需要做合并,有些事無意義的數(shù)據(jù),影響后面的數(shù)據(jù)整理,那就做數(shù)據(jù)清洗,把它干掉等等
3. 畫像體系
有了這些數(shù)據(jù),我們就可以生成畫像了,就知道是什么了。
畫像有人物畫像,也有商品畫像;我們繼續(xù)來說小明,比如說:小明,26歲,性別男,愛好看電影,喜歡吃小龍蝦,商品畫像其實(shí)就是描述這個(gè)商品的內(nèi)容的東西。
4. 算法引擎
- 協(xié)同過濾:比如說小明喜歡《數(shù)據(jù)挖掘?qū)д摗?,小紅喜歡《三個(gè)火槍手》,基于 UserCF(用戶協(xié)同過濾),找到與他們偏好相似的用戶,將相似用戶偏好的書籍推薦給他們;還可以基于ItemCF(物品協(xié)同過濾),找到與他們當(dāng)前偏好書籍相似的其他書籍,推薦給他們。
- 隱語義模型:根據(jù)用戶的當(dāng)前偏好信息,得到用戶的興趣偏好,將該類興趣對(duì)應(yīng)的物品推薦給當(dāng)前用戶。比如,小明喜歡的《數(shù)據(jù)挖掘?qū)д摗穼儆谟?jì)算機(jī)類的書籍,那我們可以將其他的計(jì)算機(jī)類書籍推薦給他;小紅喜歡的是文學(xué)類數(shù)據(jù),可將《巴黎圣母院》等這類文字作品推薦給她,這就是隱語義模型。
此外還有聚類模型等。
5. 推薦接口
由于有這些底層的數(shù)據(jù)及算法,那就可以根據(jù)這些數(shù)據(jù)通過接口,在某些場(chǎng)景去給他們做分發(fā),我們繼續(xù)來說小明,不僅喜歡吃老鄉(xiāng)雞,還喜歡打網(wǎng)球,彈琴,琴棋書畫樣樣精通啊。孫總打開手機(jī)的時(shí)候,我就可以在他的用戶端的各個(gè)模塊下給他推薦他喜歡的東西了。
6. 底層規(guī)則控制及配置
比如說我知道孫總喜歡吃老鄉(xiāng)雞,可是我已經(jīng)給他推送了3天了,第四天我再給他推送,估計(jì)他就吐了,那我給他推送一波小廚娘,名稱就很符合孫總的審美,他是不是就很大概率會(huì)買呀,這個(gè)就是一些規(guī)則的控制與配置,最后通過重新得到的數(shù)據(jù)去統(tǒng)計(jì)分析。
7. 數(shù)據(jù)采集及畫像構(gòu)建
有些數(shù)據(jù)用戶會(huì)手動(dòng)填寫,有些我們需要根據(jù)用戶的行為去分析、推測(cè),還有一些 需要我們?nèi)ヂ顸c(diǎn)獲取。
8. 根據(jù)數(shù)據(jù),構(gòu)建用戶畫像
根據(jù)各個(gè)標(biāo)簽,我們可以知道這個(gè)人的用戶畫像。然后根據(jù)這個(gè)人是誰,我們就可以去查找他對(duì)應(yīng)的信息有哪些,我們就可以根據(jù)用戶畫像中的信息去推送他喜歡的東西。
9. 算法的工作機(jī)制
我們把用戶畫像和商品畫像丟到了算法池子里,過來一個(gè)一個(gè)用戶請(qǐng)求后,我們會(huì)先調(diào)用用戶畫像,讓我看看你是誰?
然后我會(huì)再看看我有哪些東西,知道了這些后,系統(tǒng)會(huì)按照你的需求去做召回,把東西從庫存中拿出來,比如說我從熱點(diǎn)里召回了500個(gè),從興趣中召回500個(gè),從TOP隊(duì)列中再召回500個(gè),從很多隊(duì)列中召回。
比如說我們召回了1500個(gè)東西后,我不可能全給你展示,還是太多了,那我就會(huì)給這1500個(gè)東西評(píng)分,排出來個(gè)123,所以就會(huì)通過協(xié)同過濾去做一個(gè)排名,用RFM模型去做排序。這是第一次排序。
然后會(huì)根據(jù)一些運(yùn)營(yíng)規(guī)則和玩法再去做一次排序,為什么要做兩次排序呢?因?yàn)橛?jì)算量太大了,所以要做兩次排序。排序之后,就是對(duì)每個(gè)人做一個(gè)千人千面的展示了。
六、冷啟動(dòng)的問題
為什么是智能推薦系統(tǒng)?因?yàn)樗泻芏嗟臄?shù)據(jù)去支撐你的整個(gè)系統(tǒng),但是如果沒有數(shù)據(jù)該怎么辦呢?這個(gè)時(shí)候就需要做冷啟動(dòng)了,冷啟動(dòng)常遇到的問題分三種:
- 用戶冷啟動(dòng):主要解決的是如何給新用戶做個(gè)人化推薦的問題?
- 物品冷啟動(dòng):主要解決如何將新的物品推薦給可能對(duì)它感興趣的用戶這一問題;
- 系統(tǒng)冷啟動(dòng):主要解決如何在一個(gè)新開發(fā)的產(chǎn)品上(還沒有用戶,也沒有用戶行為,只有一些物品的信息)設(shè)計(jì)個(gè)性化推薦系統(tǒng),使網(wǎng)站剛發(fā)布就讓用戶體驗(yàn)到個(gè)性化推薦服務(wù)這一問題。
常見的冷啟動(dòng)方法,如下圖:
七、智能推薦系統(tǒng)的指標(biāo)體系
然后我們?cè)u(píng)價(jià)我們的系統(tǒng)是不是一個(gè)NB的系統(tǒng),就需要建立一個(gè)指標(biāo)體系,怎么建立這個(gè)指標(biāo)體系呢?需要從三個(gè)維度來建立,第一是人的維度;第二是貨的維度,第三就是場(chǎng)的維度。
1. 人的維度怎么評(píng)價(jià)一個(gè)推薦系統(tǒng)做的好不好呢?
要看的是人均展現(xiàn),就像女孩子逛街一樣,你開心你就多逛一會(huì)兒,不開心可能逛一會(huì)兒就結(jié)束了,看你吸不吸引她。
人均點(diǎn)擊就是她點(diǎn)進(jìn)去這個(gè)產(chǎn)品查看了,閱讀時(shí)長(zhǎng)(消費(fèi))指的就是這個(gè)東西符合他的口味,比如一本書,肯定是閱讀時(shí)間越長(zhǎng),越能表現(xiàn)這個(gè)這個(gè)書越符合人的口味,我推薦的東西,肯定是他買的越多,說明我們的系統(tǒng)越好。
她逛了多少家店,看了多長(zhǎng)時(shí)間,買了多少錢,肯定是推薦系統(tǒng)越好,推薦的東西越符合他的品味,她逛的時(shí)間就越長(zhǎng)。這個(gè)東西都是成正比的。那Dislike就是你不喜歡這個(gè)東西,不點(diǎn)擊,如果dislike率太高的話,那就說明我們的系統(tǒng)還是不太NB的。
所以說在對(duì)人的維度:是C端的維度,我們要考慮的是滿足用戶的需求。
2. 貨的維度,比如我哪些品類被曝光了,哪些品類被賣出去了
這個(gè)要看的是每個(gè)單品商品的拉新、留存、轉(zhuǎn)化能力。
為什么要說貨的維度呢?是為了建立一個(gè)穩(wěn)定的生態(tài),比如說抖音,就那么幾百個(gè)人火,其他人發(fā)了都不活,那么長(zhǎng)此下去,還會(huì)有其他人去發(fā)抖音了么?不會(huì)了。
比如說漂亮小姐姐發(fā)啥都火,人均點(diǎn)擊量就是特別高,那我是一個(gè)糙老爺們兒,我沒有那么美麗的皮囊,但是我有內(nèi)涵,我在抖音上講干貨,我的抖音沒人看,我發(fā)了幾次,一直沒人看,那我就不發(fā)了。
所以在算法上,為了生態(tài)平衡,為了生態(tài)的健康,系統(tǒng)也會(huì)給我一些流量,讓我的內(nèi)容有點(diǎn)點(diǎn)擊率,也利于刺激我去做內(nèi)容,從而擴(kuò)大整個(gè)系統(tǒng)的生態(tài)。
所以在貨的維度上:是B端的維度,是為了要滿足生態(tài)的穩(wěn)定性。
3. 場(chǎng)的維度、平臺(tái)的推薦機(jī)制等
我建了多少隊(duì)列,隊(duì)列是不是多樣的,覆蓋的內(nèi)容是不是夠廣,內(nèi)容時(shí)效性是不是夠強(qiáng),不能說都2020年了,我給你推2001年911恐怖襲擊是吧?
還有我們的內(nèi)容是不是低俗低質(zhì)量的,比如什么我推的都是什么咪蒙文《港囧:斗小三的正確方式是,你要有很多很多的錢》、《如何科學(xué)的搞死渣男老公和小三》,都是很吸引人點(diǎn)擊的內(nèi)容,但是畫風(fēng)就很難看,所以為了持續(xù)的生態(tài),平臺(tái)也要去打擊屏蔽類似的內(nèi)容、字眼。
內(nèi)容聚集度指的是:top100的內(nèi)容占全部?jī)?nèi)容的比例,比如說我抖音top100的內(nèi)容的播放量占了全部?jī)?nèi)容播放量的80%,說明大部分用戶只看頭部?jī)?nèi)容,那生態(tài)就是不健康的,我們還是希望是把流量平分給各個(gè)哥們兒。
但是各個(gè)平臺(tái)內(nèi)容是不同的,比如說抖音主要是把流量分配給各個(gè)MCN機(jī)構(gòu)的,但是快手的算法是把流量分配給各個(gè)老鐵的。大家可以試試,你去抖音發(fā)和快手發(fā)同樣的一個(gè)視頻,快手的播放量大多數(shù)是要超過抖音的,因?yàn)槎兑舻乃惴?,除非爆款,不然他是不?huì)把流量分發(fā)給你的。
而快手的Slogan是“快手,記錄生活”,是一個(gè)記錄生活的地方,他的流量分發(fā)是相對(duì)比較平均的。抖音為了讓大家的使用時(shí)長(zhǎng)提高,廣告的轉(zhuǎn)化率提高,所以會(huì)推薦一些精品的內(nèi)容,但是精品的內(nèi)容制作是需要有團(tuán)隊(duì)的,或者說門檻比較高,我們普通人制作不出來,所以內(nèi)容聚集度就高了。
八、智能推薦還有哪些延伸?
比如說用在PUSH上,在大麥APP里,你平時(shí)關(guān)注的音樂會(huì),我平時(shí)關(guān)注的是演唱會(huì),那可能系統(tǒng)給你推薦的就是《【南京】【跨年場(chǎng)】《維也納施特勞斯之夜》新年交響音樂會(huì)》,給我推薦的可能就是《【南京】汪蘇瀧大娛樂家演唱會(huì)-南京站》。
比如說智能客服,同樣都是買東西遇到了困難,你是的手機(jī)維修,我的是家電維修,咱們兩個(gè)收到的內(nèi)容也是不一樣的。
比如說智能營(yíng)銷,孫博士在系統(tǒng)里是機(jī)械學(xué)院的老教授,張博士在系統(tǒng)里是生物學(xué)院的老教授,那系統(tǒng)給他們發(fā)送的內(nèi)容,給孫博士發(fā)的就是機(jī)械相關(guān)的內(nèi)容,比如說機(jī)械相關(guān)的產(chǎn)品,相關(guān)的會(huì)議。給張博士發(fā)的就是生物相關(guān)的產(chǎn)品和會(huì)議等。
再來說智能搜索, 智能搜索會(huì)根據(jù)每個(gè)人搜索的歷史記錄不同,所在國(guó)家、地區(qū)的不同,展示不同的搜索結(jié)果,現(xiàn)在谷歌,百度等搜索已經(jīng)是了,比如說百度,你在南京搜醫(yī)院和你在北京搜醫(yī)院,展示的內(nèi)容肯定是不同的。
此外還有什么東西可以用到智能的個(gè)性化的產(chǎn)品,大家可以自己在工作之余想想。
本文由@孤獨(dú)的美食家丿 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議
我覺得你還應(yīng)該再寫點(diǎn)兒文章(doge)
好厲害,大佬
優(yōu)秀~
文章很優(yōu)秀
你這真的是英俊瀟灑、風(fēng)流倜儻、玉樹臨風(fēng)、神勇威武、天下無敵、宇內(nèi)第一、寂寞高手、刀槍不入、唯你獨(dú)尊、玉面郎君、仁者無敵、勇者無懼、英明神武、俠義非凡、義薄云天、古往今來、無與倫比、謙虛好學(xué)、…簡(jiǎn)直是前不見古人后不見來者,玉樹臨風(fēng),風(fēng)度翩翩,一樹梨花壓海棠……
還行還行,一般優(yōu)秀
可以啊,好好努力,繼續(xù)肝