做AI推薦系統(tǒng),產(chǎn)品經(jīng)理要“能文”也要“會(huì)武”

1 評(píng)論 10348 瀏覽 67 收藏 14 分鐘

編輯導(dǎo)讀:文章從AI推薦系統(tǒng)的概況和增長壓力下業(yè)務(wù)對(duì)推薦系統(tǒng)產(chǎn)品的渴求出發(fā),介紹了介紹產(chǎn)品經(jīng)理必懂的推薦系統(tǒng)技術(shù),包含文的技術(shù)、武的技術(shù)、推薦系統(tǒng)框架、推薦系統(tǒng)大數(shù)據(jù)和推薦系統(tǒng)算法,其中重點(diǎn)講解了寬度學(xué)習(xí)在推薦系統(tǒng)產(chǎn)品中的應(yīng)用,供大家一同參考和學(xué)習(xí)。

AI推薦系統(tǒng),這些年我參加過不少線下推薦系統(tǒng)的會(huì),推薦系統(tǒng)是繼數(shù)據(jù)產(chǎn)品經(jīng)理,B端產(chǎn)品經(jīng)理,AI產(chǎn)品經(jīng)理之后最熱門的產(chǎn)品經(jīng)理崗位。

例如:不同年份參加有關(guān)Amazon亞馬遜公司GMV有多少來自推薦系統(tǒng)的功勞時(shí),據(jù)會(huì)上有關(guān)PPT顯示是一年比一年高,具體如下:

  • 2019年P(guān)PTAmazon40%收入來自推薦引擎;
  • 2017年P(guān)PTAmazon35%收入來自推薦引擎;
  • 2015年P(guān)PTAmazon25%收入來自推薦引擎;

但是做推薦系統(tǒng)需要產(chǎn)品負(fù)責(zé)人必須懂得兩個(gè)方面的內(nèi)容,一個(gè)方面是文,一個(gè)方面是武。

文一:標(biāo)簽體系

能夠梳理自己的手頭資料,例如,有什么內(nèi)容,內(nèi)容以圖文為主還是以長視頻和短視頻為主。

會(huì)對(duì)內(nèi)容進(jìn)行打標(biāo)簽。例如:我工作過的視頻APP結(jié)合硬件的公司其標(biāo)簽系統(tǒng)如下:

標(biāo)簽系統(tǒng)是推薦系統(tǒng)產(chǎn)品經(jīng)理的基本功,屬于非算法技術(shù)的模塊,故此算“文”的部分。上圖是視頻的標(biāo)簽系統(tǒng)的業(yè)務(wù)架構(gòu)邏輯。

此標(biāo)簽體系主要是針對(duì)視頻,其中業(yè)務(wù)包含長視頻和短視頻,長視頻:基于最細(xì)粒度標(biāo)簽向量,人工打權(quán)重,用向量相似計(jì)算節(jié)目相似度;短視頻:基于三級(jí)標(biāo)簽,利用產(chǎn)品運(yùn)營策略、規(guī)則、算法計(jì)算相似度。利用NLP從標(biāo)題中提取關(guān)鍵詞補(bǔ)充三級(jí)標(biāo)簽,建立倒查索引表,實(shí)時(shí)更新相似度。

標(biāo)簽系統(tǒng)主要分,標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),標(biāo)簽的數(shù)據(jù)類型,標(biāo)簽的數(shù)據(jù)來源,標(biāo)簽的系統(tǒng)功能。

數(shù)據(jù)結(jié)構(gòu)(英語:data structure)是計(jì)算機(jī)中存儲(chǔ)、組織數(shù)據(jù)的方式。

標(biāo)簽的數(shù)據(jù)結(jié)構(gòu)一般分為三級(jí),一級(jí),二級(jí)表示標(biāo)簽的功能;三級(jí)表示標(biāo)簽的具體信息;這種數(shù)據(jù)結(jié)構(gòu)來自按業(yè)務(wù)需求進(jìn)行的梳理。梳理標(biāo)簽分類時(shí),盡可能按照MECE原則,相互獨(dú)立,完全窮盡。每一個(gè)子集的組合都能覆蓋到父集所有數(shù)據(jù)。標(biāo)簽深度控制在三、四級(jí)比較合適,方便管理,到了第四級(jí)就是具體的標(biāo)簽實(shí)例。

我們的視頻標(biāo)簽數(shù)據(jù)結(jié)構(gòu)是分為三級(jí),例如,人口屬性——性別-性別(男)這樣的數(shù)據(jù)結(jié)構(gòu)來梳理的。

數(shù)據(jù)類型(英語:Data type),又稱數(shù)據(jù)型態(tài)、數(shù)據(jù)型別,是用來約束數(shù)據(jù)的解釋。在編程語言中,常見的數(shù)據(jù)類型包括原始類型(如:整數(shù)、浮點(diǎn)數(shù)或字符)、多元組、記錄單元、代數(shù)數(shù)據(jù)類型、抽象數(shù)據(jù)類型、參考類型、類以及函數(shù)類型。數(shù)據(jù)類型描述了數(shù)值的表示法、解釋和結(jié)構(gòu),并以算法操作,或是對(duì)象在存儲(chǔ)器中的存儲(chǔ)區(qū),或者其它存儲(chǔ)設(shè)備。

在我們的標(biāo)簽體系中一般是指產(chǎn)品對(duì)應(yīng)具體的業(yè)務(wù)內(nèi)容,視頻的產(chǎn)品經(jīng)理一般會(huì)按照長視頻,例如:短視頻的變遷數(shù)據(jù)類型會(huì)分為,分類標(biāo)簽,欄目標(biāo)簽,內(nèi)容標(biāo)簽等。分類標(biāo)簽是指短視頻的類別,例如屬于教育、音樂還是舞蹈等等,欄目標(biāo)簽是指某個(gè)短視頻欄目,然后是具體的內(nèi)容。

那么標(biāo)簽的數(shù)據(jù)來源是怎么來的呢?一方面是手工人工對(duì)內(nèi)容進(jìn)行梳理,標(biāo)簽化。另外一方面算法對(duì)視頻標(biāo)題內(nèi)容和視頻簡介進(jìn)行分詞理解。

文二:用戶畫像

用戶畫像是由N維度的用戶標(biāo)簽生成的,用戶畫像將推薦系統(tǒng)設(shè)計(jì)的焦點(diǎn)放在目標(biāo)用戶的動(dòng)機(jī)和行為上,從而避免產(chǎn)品設(shè)計(jì)人員草率地代表用戶。產(chǎn)品設(shè)計(jì)人員經(jīng)常不自覺的把自己當(dāng)作用戶代表,根據(jù)自己的需求設(shè)計(jì)產(chǎn)品,導(dǎo)致無法抓住實(shí)際用戶的需求。往往對(duì)產(chǎn)品做了很多功能的升級(jí),用戶卻覺得體驗(yàn)變差了。

在大數(shù)據(jù)領(lǐng)域,用戶畫像的作用遠(yuǎn)不止于此。用戶的行為數(shù)據(jù)無法直接用于數(shù)據(jù)分析和模型訓(xùn)練,我們也無法從用戶的行為日志中直接獲取有用的信息。而將用戶的行為數(shù)據(jù)標(biāo)簽化以后,我們對(duì)用戶就有了一個(gè)直觀的認(rèn)識(shí)。

同時(shí)計(jì)算機(jī)也能夠理解用戶,將用戶的行為信息用于個(gè)性化推薦、個(gè)性化搜索、廣告精準(zhǔn)投放和智能營銷等領(lǐng)域。

為視頻做推薦系統(tǒng),需要了解視頻用戶的特征,這些特征傳統(tǒng)方法可以通過特征工程來做,但是有了AI后,可以用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征。如下圖:

我們已經(jīng)落地的視頻用戶的標(biāo)簽體系主要分為基礎(chǔ)標(biāo)簽,包含設(shè)備的型號(hào)和設(shè)備的LBS位置等,以及用戶的家庭結(jié)構(gòu)還有核心目的預(yù)測(cè)用戶的需求的標(biāo)簽,例如:是否已婚、是否有房、從事的行業(yè)等等。

我們視頻類產(chǎn)品用戶的標(biāo)簽主要來自于業(yè)務(wù)系統(tǒng),例如用戶用過手機(jī)看視頻,用戶通過電視看視頻,用戶看廣告并點(diǎn)擊了某類型的廣告,用戶在第三方平臺(tái)的數(shù)據(jù)等等。

然后我們將用戶數(shù)據(jù)ETL進(jìn)入數(shù)倉,同時(shí)也會(huì)利用AI的工具例如TensorFlow等生產(chǎn)出新的數(shù)據(jù),進(jìn)而形成用戶畫像,然后封裝好供推薦系統(tǒng)和內(nèi)容運(yùn)營人員利用。

武一:懂大數(shù)據(jù)和推薦系統(tǒng)的關(guān)系

推薦系統(tǒng)是幫助人們解決信息獲取問題的有效工具,對(duì)互聯(lián)網(wǎng)產(chǎn)品而言用戶數(shù)和信息總量通常都是巨大的,每天收集到的用戶在產(chǎn)品上的交互行為也是海量的,這些大量的數(shù)據(jù)收集處理就涉及到大數(shù)據(jù)相關(guān)技術(shù),所以推薦系統(tǒng)與大數(shù)據(jù)有天然的聯(lián)系,要落地推薦系統(tǒng)往往需要企業(yè)具備一套完善的大數(shù)據(jù)分析平臺(tái)。

推薦系統(tǒng)與大數(shù)據(jù)平臺(tái)的依賴關(guān)系如下圖。

上圖顯示,大數(shù)據(jù)平臺(tái)包含數(shù)據(jù)中心和計(jì)算中心兩大抽象,數(shù)據(jù)中心為推薦系統(tǒng)提供數(shù)據(jù)存儲(chǔ),包括訓(xùn)練推薦模型需要的數(shù)據(jù),依賴的其他數(shù)據(jù),以及推薦結(jié)果,而計(jì)算中心提供算力支持,支撐數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型推斷 (即基于學(xué)習(xí)到的模型,為每個(gè)用戶推薦) 等。

武二:推薦系統(tǒng)架構(gòu)

好的技術(shù)架構(gòu)一定來自對(duì)業(yè)務(wù)發(fā)展的持續(xù)支撐,不僅不耽誤業(yè)務(wù)發(fā)展且能夠激發(fā)業(yè)務(wù)發(fā)展。我們的架構(gòu)平臺(tái)不是為了追隨熱點(diǎn)而是為了持續(xù)的激發(fā)業(yè)務(wù)創(chuàng)新,為客戶用戶提供搞好的有價(jià)值的內(nèi)容。

上圖為我們產(chǎn)品,我們的產(chǎn)品有很多,例如有手機(jī)APP應(yīng)用,有電視端應(yīng)用,有愛奇藝,也有奇秀,還有奇巴布等等產(chǎn)品,中間左側(cè)我們有BI中臺(tái),中間右側(cè)我們有AI中臺(tái),包含做好的推薦結(jié)果,推薦文檔等等,下面是大數(shù)據(jù)處理架構(gòu),將數(shù)據(jù)源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,然后輸入到數(shù)據(jù)中臺(tái),數(shù)據(jù)中臺(tái)包含數(shù)倉,下面右側(cè)是計(jì)算平臺(tái),包含實(shí)時(shí)(流式計(jì)算)計(jì)算引擎和離線計(jì)算以及聯(lián)合GPU拓展做的機(jī)器學(xué)習(xí)平臺(tái)。最右側(cè)是一些常規(guī)的例如:AB測(cè)試、業(yè)務(wù)監(jiān)控、業(yè)務(wù)指標(biāo)體系等等功能模塊。

好的推薦系統(tǒng)不是計(jì)算平臺(tái)里有多少前沿的未經(jīng)融合的算法,也不是AI中臺(tái)里面封裝了多少算法模型,而是能夠給用戶帶來喜悅感和價(jià)值,同時(shí)為公司來帶業(yè)務(wù)的持續(xù)增長,否則推薦系統(tǒng)就僅僅放在實(shí)驗(yàn)室里的擺設(shè)。

武三:寬度學(xué)習(xí)

一個(gè)好的推薦系統(tǒng)目標(biāo)是清晰的,但是在實(shí)現(xiàn)用戶驚喜和公司業(yè)務(wù)的持續(xù)增長上完全靠機(jī)器學(xué)習(xí)有時(shí)候是不能給用戶帶來人性的溫暖的。所以筆者提出用寬度學(xué)習(xí)來做推薦系統(tǒng)的想法。(當(dāng)然Wide本身的靈感來自2015年谷歌的論文,只是筆者用于實(shí)踐并落地了)。

上圖是筆者繪制的將寬度學(xué)習(xí)應(yīng)用于推薦系統(tǒng)的抽象圖。我們知道一般推薦系統(tǒng)要么基于用戶進(jìn)行推薦,用類似用戶的相似偏好進(jìn)行推薦,要么是基于物品(我們是視頻)的相似度進(jìn)行推薦,但是這種方式放入機(jī)器學(xué)習(xí)會(huì)有兩個(gè)方面的問題:

一個(gè)是數(shù)據(jù)稀疏,例如用戶沒有對(duì)某物品購買夠,收藏過,觀看過,點(diǎn)贊過那么構(gòu)成的用戶行為數(shù)據(jù)矩陣或者物品數(shù)據(jù)矩陣?yán)锩鏁?huì)有很多空白。另外一個(gè)問題是總有一些維度數(shù)據(jù)缺失,目前據(jù)筆者所知淘寶可以為用戶標(biāo)簽打到幾百萬維度,但是依然存在不懂用戶的角度,所以這個(gè)時(shí)候就需要員工從人性的角度為推薦引擎進(jìn)行協(xié)同。

所以,寬度學(xué)習(xí)應(yīng)用于推薦系統(tǒng)是指在機(jī)器學(xué)習(xí)深度學(xué)習(xí)所搭建的推薦引擎之外搭建人工推薦引擎一融合更好的為用戶帶來推薦的驚喜和滿意。

寬度學(xué)習(xí)寬的部分主要是指,用戶年齡、用戶的設(shè)備型號(hào)、用戶的社會(huì)參與狀況及人文背景。這樣就拓展了人物在機(jī)器學(xué)習(xí)不到或者難以機(jī)器學(xué)習(xí)的地方的信息量和作為人類的心理感受參數(shù)。

最后

做出優(yōu)秀的推薦系統(tǒng)需要克服的問題有:

  1. 多端設(shè)備相同用戶或單端設(shè)備不同用戶;
  2. 用戶非登錄;
  3. 新用戶;
  4. 用戶對(duì)隱私的關(guān)注;
  5. 算法配合UI和內(nèi)容運(yùn)營在邊緣端呈現(xiàn)給用戶的結(jié)果;
  6. 數(shù)據(jù)源的拓展;
  7. 另選與行業(yè)競對(duì)的內(nèi)容或者體驗(yàn)。

能做到以上七點(diǎn)的推薦系統(tǒng)時(shí)下應(yīng)該能夠獲得用戶的驚喜。

我有時(shí)候喜歡做工程師,喜歡這種靜下來做出東西來的小成就感,我有時(shí)候喜歡市場運(yùn)營喜歡那種對(duì)用戶運(yùn)營的套路慢慢,不論是哪種最后我們都要給客戶持續(xù)帶來新產(chǎn)品新服務(wù)和新體驗(yàn)。

#專欄作家#

連詩路,公眾號(hào):LineLian。人人都是產(chǎn)品經(jīng)理專欄作家,《產(chǎn)品進(jìn)化論:AI+時(shí)代產(chǎn)品經(jīng)理的思維方法》一書作者,前阿里產(chǎn)品專家,希望與創(chuàng)業(yè)者多多交流。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash, 基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 算法配合UI和內(nèi)容運(yùn)營在邊緣端呈現(xiàn)給用戶的結(jié)果
    老師您好,這個(gè)在“邊緣”端,是什么意思?。?/p>

    來自北京 回復(fù)