Netflix,為何能成為個性化推薦的王者?
從《紙牌屋》開始,Netflix越來越多地進入國人的視線中。關(guān)于它的用戶推薦系統(tǒng)、“大數(shù)據(jù)分析”等等神話和傳說也有不少,本文是我在查找了一些資料后,整理出來的Netflix的推薦思路和一些方法。太過技術(shù)的算法內(nèi)容實在是hold不住,因此僅從邏輯上進行說明。一來整理自己的思路,二來盡可能學(xué)習(xí)些東西,分享出來歡迎各位討論。
一、坐等風(fēng)來
回顧歷史,Netflix是一家典型的提前布局等風(fēng)來的公司。
1997年8月,在DVD機僅推出幾個月后,Reed Hasting和Marc Randolph創(chuàng)立了Netflix,并在1998年3月上線了全球第一家線上DVD租賃商店。以僅30名雇員拿下了925部電影,這幾乎是當(dāng)時所有的DVD電影存量。
1999年他們推出了全新的按月訂閱的模式,用戶第一次有機會享受到?jīng)]有過期罰款、沒有運費、手續(xù)費等等一系列煩人的東西的服務(wù)。相比Netflix之前使用的單部電影租賃的方式,新模式對用戶更加友好,于是Netflix憑借著這個模式迅速在行業(yè)里建立起了口碑,老舊的單部影片租賃模式也于2000年壽終正寢。
隨后的2001年,由于DVD機售價越來越低,成為當(dāng)年圣誕節(jié)成為最受歡迎的禮物之一,Netflix也在2002年坐上了這趟快車,用戶量得到了巨幅增長。這是Netflix創(chuàng)立四年迎來的第一個風(fēng)口,現(xiàn)在看來不得不感嘆其眼光之獨到。
2005年,他們發(fā)現(xiàn)盡管沒有高清內(nèi)容,但Youtube的流媒體服務(wù)(可簡單理解為在線播放)仍然十分受歡迎,于是放棄了自己的硬件產(chǎn)品Netflix Box轉(zhuǎn)入其中,于2007年上線了流媒體服務(wù)。而隨著日后網(wǎng)絡(luò)帶寬的提升和費用的降低,占據(jù)了先發(fā)優(yōu)勢的Netflix又一次收獲了巨大增長。
2006年,一項名為Netflix Prize的算法大賽橫空出世,Netflix拿出100萬美元獎金讓開發(fā)者們?yōu)樗麄兊膬?yōu)化電影推薦算法。截至2012年第四季度,Netflix已在全球擁有2940萬訂閱用戶。
2012年,Netflix開始嘗試自制內(nèi)容,并于2013年推出《紙牌屋》,高超的內(nèi)容質(zhì)量和一次放出整季內(nèi)容的發(fā)行方式,讓它瞬間風(fēng)靡全球。
今年4月,Netflix的全球訂閱用戶達到1.25億,服務(wù)超過190個國家和地區(qū)。截至今日,它的市值超越迪士尼成為全球互聯(lián)網(wǎng)企業(yè)排名第六的公司。
回顧Netflix這21年的歷史,似乎每一次轉(zhuǎn)型的時機和方向都是如此準確,以至于有些“自然而然”地達成今天的高度。然而如果我們透過現(xiàn)象看本質(zhì),從萬變中找不變的話,有一件事一定會被提到——個性化推薦。甚至可以說,“個性化推薦”就像Netflix自制的鼓風(fēng)機,第三個風(fēng)口是他們自己造出來的。
沒有明確的資料說明Netflix在做郵寄租賃DVD的時候有沒有推薦機制。但他們確實從最開始的時候,就十分重視數(shù)據(jù),并開始收集用戶數(shù)據(jù)了:他們會在郵寄的信封里附上問卷讓用戶給電影打分。這些打分數(shù)據(jù)是之后Netflix推薦系統(tǒng)的重要基石之一。
“個性化推薦”一直都是Netflix的殺手锏,數(shù)據(jù)積累和算法研發(fā)的提前讓它在這方面幾乎是不可被超越的,時至今日用戶在Netflix上觀看的80%內(nèi)容都是由推薦而來的。
二、解構(gòu)好萊塢
Netflix的推薦系統(tǒng)之所以能夠如此高效地達成目標,我認為最大的理由是他們教會了“讓機器懂電影”。在一篇名叫<How Netflix Reverse Engineerd Hollywood>的文章中(由Alexis C. Madrigal于2014年發(fā)表)。作者從Netflix的推薦分類出發(fā),解說了他們是如何解構(gòu)好萊塢進而去給用戶做推薦系統(tǒng)的。
在Netflix的首頁中你會看到一行一行的電影,每一行是一個分類,官方叫它altgenre,或者說“微分類”,每個分類中是一系列的電影。這些分類和電影都是為你量身推薦的。
在這些分類中有一些非常精準、十分有意思的標題:情感充沛的反體制紀錄片(Emotional Fight-the-System Documentaries)、基于事實的皇室掠影(Period Pieces About Royalty Based on Real Life)、80年代的外國邪惡電影(Foreign Satanic Stories from the 1980s)。
那么這些類型是怎么來的呢,作者Alexis做了一件很絕的事情:
他把Netflix的所有分類全爬了下來,共有76897個分類之多。并且將這些分類的用詞和語法做了深入分析,還自己開發(fā)了一個“類型生成器”,生成出了和Netflix類似的結(jié)果。他甚至給出了公式:地區(qū)+形容詞+類型+故事基礎(chǔ)+拍攝地+時代+關(guān)于(什么的內(nèi)容)+適合年齡段(Region… + Adjectives… + Noun Genre… + Based On… + Set In… + From the… + About… + For Age X to Y)。
但看到這里,我們只是看到了Netflix解構(gòu)好萊塢的結(jié)果,那么這一切是從哪里開始的呢?
2006年,Netflix產(chǎn)品副總裁Todd Yellin帶領(lǐng)一票工程師用數(shù)月時間寫了一份長達24頁的名為《Netflix量子論》(Netflix Quantum Theory)的文檔。專門講述如何用“微標簽”(microtag)拆解電影。
這份文檔的目的是作為訓(xùn)練手冊,讓不同的人對微標簽有同樣的理解,以保證能夠系統(tǒng)性地、標準統(tǒng)一地解構(gòu)上千部電影。如今這份手冊已經(jīng)擴展到了36頁。
這份36頁的訓(xùn)練手冊講述了如何給一部影片的性暗示內(nèi)容、血腥程度、浪漫等級、甚至情節(jié)總結(jié)等元素評級。文檔還解釋了如何給影片結(jié)局打標簽、給主要演員的“社會接受度”打標簽、給每部影片的浪漫程度打標簽,更重要的是,每個標簽都有從1到5的評級。
以《超膽俠》電影為例,標簽會包括“四個主要角色”,至于其中Matt Murdock這個角色,會有演員名、角色名、他很“英雄”(heroic)、是個律師等等。
Netflix就是用這樣的方式,解構(gòu)了幾乎所有的電影,用精細、準確的微標簽和評級教會推薦系統(tǒng)去認識電影、解讀電影。
更令人稱道的是,給Netflix打標簽真的是一份工作。Netflix組建了一只團隊,付錢讓他們看電影同時給這些電影打上標簽。有好事的媒體采訪到了一位“標簽員”(tagger),讓他講述給Netflix打標簽是一種什么樣的體驗,十分有意思。
三、解構(gòu)用戶
2012年前后,Netflix的推薦系統(tǒng)經(jīng)歷了一次重大的策略變化,官方技術(shù)博客以名為<Netflix Recommendations: Beyond the 5 stars>的文章(分為1、2兩部分)闡述了這種變化的前因后果:
在郵寄租賃DVD的時代,Netflix能夠獲得用戶的評分,但是用戶觀看電影的過程對平臺是隱形的。但是隨著流媒體業(yè)務(wù)的開展,Netflix終于有機會看到用戶的更多方面。于是他們認識到:
“Everything is a Recommendation.”——一切都是推薦。
由這一想法催生出的,是更加細致、深入的用戶推薦。
Netflix的官方文檔中把自己稱為“幸運”,因為他們有大量的相關(guān)數(shù)據(jù)和能夠把這些數(shù)據(jù)應(yīng)用到產(chǎn)品中的人才。
以下是Netflix用來優(yōu)化推薦系統(tǒng)的數(shù)據(jù)源:
- 數(shù)以百萬計的用戶評分數(shù)據(jù)(tagins),而且每天還在以百萬量級增長;
- 作為算法基準線的項目熱度(item popularity);
- 包含時長、時間、設(shè)備類型的數(shù)百萬播放數(shù)據(jù)(stream plays);
- 用戶每天會想自己的列表(queue)中添加數(shù)百萬項目;
- 每個項目下豐富的元數(shù)據(jù)(metadata);
- 每個項目的展示位置(presentation)和效果;
- 用戶的社交數(shù)據(jù)(social);
- 百萬級的用戶搜索數(shù)據(jù)(search terms);
- 來自外部(external data)的票房或影評數(shù)據(jù);
- 當(dāng)然,實際上用到的數(shù)據(jù)還遠不止這些。
除了和影片相關(guān)的數(shù)據(jù)外,用戶數(shù)據(jù)是Netflix推薦系統(tǒng)的另一重要基石。
轉(zhuǎn)型流媒體后,用戶的所有行為全部在平臺內(nèi)完成,這給了Netflix觀察用戶的絕佳環(huán)境,他們不僅僅知道用戶看過什么,甚至知道他們是怎么看的:什么時候看的,看了多長時間,在哪里暫停,在哪里反復(fù),在哪里關(guān)閉等等,這些行為數(shù)據(jù)無一不是用戶喜好的體現(xiàn)。
通過分析這些行為數(shù)據(jù),和解構(gòu)好萊塢得來的影片數(shù)據(jù)進行匹配,讓Netflix的推薦精度越發(fā)準確。
四、推薦新姿勢:個性化海報推薦
去年Netflix推出了一項新的推薦功能:個性化海報推薦,具體來說就是“不同的用戶看到的同一個電影的推薦海報是不一樣的”。如果你喜歡動作戲,則可能你看到的海報是片中的打斗場面,如果你喜歡片中某個主演,那么你看到的是以他為主角的海報。
這一功能的源頭同樣是對電影內(nèi)容和用戶喜好的解讀。認為地去創(chuàng)造更多的“一見鐘情”,進一步提高了推薦系統(tǒng)的效率。
五、Netflix的自省
1.從官方文檔透露中的信息來看,長久以來Netflix雖然對算法十分依賴,但也意識到它的不足,這種不足可能是所有的算法都躲不開的——“越推薦越相似”。因此Netflix的算法中十分關(guān)注“不同”(adversity)。新奇、多樣性、新鮮度,都是推薦中考慮的因素。
盡力幫用戶去“發(fā)現(xiàn)”興趣,這也是Netflix的推薦目標之一。
2.關(guān)于前邊提到的個性化海報推薦,官方特別地說明了對它的擔(dān)憂:不希望它變成“騙”用戶看電影的功能,也就是說要盡力把這個功能控制在一個度里,說白了就是不“標題黨”,為了讓用戶去看某個電影而強行用海報勾引他。
六、后記
就在我寫這篇文章的前幾天,Netflix又做出了兩個重要改變:1. 把五星評價系統(tǒng)改為“喜歡/不喜歡”的評價系統(tǒng);2. 取消了影片下的評論功能。
關(guān)于這兩個改變網(wǎng)上有些解讀,但我還沒想清楚,就不追這個熱點了。
關(guān)于Netflix可說的還有很多,最近他們還推出了另一個官方博客:Netflix Research,加上原有的the Netflix Tech Blog,有興趣的各位可以關(guān)注一下。
參考資料:
- <Netflix Recommendations: Beyond the 5 stars (Part 1)>:https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-1-55838468f429
- <Netflix Recommendations: Beyond the 5 stars (Part 2)>:https://medium.com/netflix-techblog/netflix-recommendations-beyond-the-5-stars-part-2-d9b96aa399f5
- < How Netflix Reverse Engineered Hollywood>:https://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hollywood/282679/
- <Netflix tagging: Yes, it’s a real job>:https://www.washingtonpost.com/news/arts-and-entertainment/wp/2015/06/11/netflix-tagging-yes-its-a-real-job/?noredirect=on&utm_term=.51f470d15c18
作者:Shady,微信公眾號:ShadyDesign
本文由 @Shady 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
公司都要有收據(jù)么:cgkc.com