為什么今日頭條們,總知道你喜歡看什么?
![](http://image.woshipm.com/wp-files/img/57.jpg)
現(xiàn)在有很多像今日頭條、輕芒閱讀這樣為你個(gè)性推薦資訊的 app,為什么同樣是個(gè)性推薦,它們卻有著不同的風(fēng)格?今天分享的這篇文章,作者是曾在 Facebook 工作的宋一松,他從 3 個(gè)方面為你簡(jiǎn)單介紹,app 是如何為你推薦個(gè)性化資訊的。
不了解今日頭條是怎么運(yùn)作的。不過(guò)因?yàn)樵?Facebook 工作時(shí)負(fù)責(zé)新鮮事(Newsfeed)的個(gè)性化推薦與排序,我可以說(shuō)說(shuō) Facebook 是怎么衡量自己推薦和排序的質(zhì)量的。
在具體執(zhí)行層面,主要有 3 個(gè)方式,分別是從機(jī)器學(xué)習(xí)模型、產(chǎn)品數(shù)據(jù),和用戶(hù)調(diào)查上來(lái)考核推薦引擎的效果。
1. 機(jī)器學(xué)習(xí)模型
推薦引擎的一大核心就是機(jī)器學(xué)習(xí)(不過(guò)現(xiàn)在都說(shuō)人工智能了,但本質(zhì)上還是 supervised learning)。如果是想考察機(jī)器學(xué)習(xí)模型的質(zhì)量,學(xué)術(shù)上早就有一套成熟的實(shí)踐方法。
無(wú)論是模型的選擇(比如從 decision tree 替換成 neural network),還是迭代改進(jìn)(比如模型訓(xùn)練時(shí)多用一倍的數(shù)據(jù)),都可以使用基于 supervised learning 的衡量辦法。最常見(jiàn)的就是 AUC。
另一方面,對(duì)于某一類(lèi)特定問(wèn)題也有更細(xì)致的指標(biāo)。比如說(shuō),可以通過(guò)模型特征的重要性(feature importance)知道新加的特征是不是有用。
2. 產(chǎn)品數(shù)據(jù)
再牛逼的機(jī)器學(xué)習(xí)模型都要經(jīng)歷產(chǎn)品數(shù)據(jù)的實(shí)際檢驗(yàn)。這方面大家就都比較熟悉了,KPI 嘛。不過(guò)在 Facebook 特別是 Newsfeed 這種牽一發(fā)動(dòng)全身的地方,我們會(huì)追蹤一系列數(shù)據(jù)來(lái)描述產(chǎn)品,而不是依賴(lài)某一個(gè)單一標(biāo)準(zhǔn)。
這些數(shù)據(jù)包括但不限于:
- 日/月活躍用戶(hù)(DAU,MAU)
- 用戶(hù)互動(dòng)(點(diǎn)贊,評(píng)論,轉(zhuǎn)發(fā)等)
- 用戶(hù)發(fā)帖量
- 用戶(hù)停留時(shí)間和消耗的內(nèi)容量
- 收入
- 用戶(hù)互動(dòng)率(比如看過(guò)的內(nèi)容中點(diǎn)贊/評(píng)論/長(zhǎng)閱讀/收藏的比例)
- 用戶(hù)舉報(bào)和屏蔽的數(shù)量
而且,在日常的快速迭代和 A/B 測(cè)試中,只有這些籠統(tǒng)的數(shù)據(jù)是不夠的,我們還需要些更細(xì)致的數(shù)據(jù)來(lái)真正理解我們的一些改動(dòng)。比如說(shuō):
- 內(nèi)容類(lèi)型的分布是怎么變動(dòng)的:用戶(hù)原創(chuàng)和轉(zhuǎn)發(fā)的比重分布,網(wǎng)頁(yè)鏈接和圖片視頻的比重分布,長(zhǎng)視頻和短視頻的比重分布等等
- 對(duì)公眾帳號(hào)是怎么影響的:什么樣的公眾號(hào)會(huì)受益于這次改動(dòng)
- 哪些第三方巨頭受到了影響,影響是否合理:比如我最早在 FB 實(shí)習(xí)時(shí)候的項(xiàng)目是整頓 SPAM 帳號(hào)。那個(gè)改動(dòng)重創(chuàng)了 Zynga(因?yàn)?Zynga 嚴(yán)重依賴(lài)用戶(hù)騷擾它的好友來(lái)吸量),但大家覺(jué)得挺合理的,讓公關(guān)去溝通了下就發(fā)布了。
另外,為了防止短暫的眼球效應(yīng),對(duì)每一個(gè)重要的產(chǎn)品決策,我們都會(huì)維護(hù)一個(gè)長(zhǎng)期的 backtest,用來(lái)評(píng)估這個(gè)決策的長(zhǎng)久影響。比如說(shuō):
- 對(duì)于在 feed 里面放廣告這個(gè)決定,我們會(huì)選擇一小部分用戶(hù),對(duì)他們長(zhǎng)期不顯示廣告,然后將他們的用戶(hù)活躍度同正常能看到廣告的用戶(hù)做對(duì)比,來(lái)衡量廣告的長(zhǎng)期影響。
- 類(lèi)似的,對(duì)于 Newsfeed 是否排序,我們也有一個(gè) holdout group,他們的 feed 是完全按時(shí)間排的。
這樣,對(duì)每一個(gè)可能會(huì)有爭(zhēng)議的決策,但未來(lái)的每個(gè)時(shí)間點(diǎn),我們都能清楚地知道,我們是面臨著怎樣的取舍。有了這層保障,在決策的當(dāng)下,我們也就敢于冒險(xiǎn)些,走得更快些。
3. 用戶(hù)調(diào)查
大多數(shù)產(chǎn)品數(shù)據(jù)有其局限性,因?yàn)?strong>它們是顯性而被動(dòng)的。比如說(shuō),你給用戶(hù)推送了一個(gè)博眼球的低俗內(nèi)容,用戶(hù)在當(dāng)下可能是會(huì)去點(diǎn)開(kāi)看的,所以數(shù)據(jù)上是好的。
但用戶(hù)可能心里對(duì)這個(gè)內(nèi)容的評(píng)價(jià)是低的,連帶著對(duì)作為內(nèi)容平臺(tái)的產(chǎn)品也會(huì)看輕,長(zhǎng)此以往對(duì)產(chǎn)品的傷害是巨大的。
KPI 無(wú)法完全描述產(chǎn)品質(zhì)量,在硅谷互聯(lián)網(wǎng)圈是有共識(shí)的,但如何解決,每個(gè)公司答案都不同。
Twitter 系的 CEO 們,無(wú)論是 Jack Dorsey 還是 Evan Williams,都傾向于輕視 KPI 而依賴(lài)自己主觀想法來(lái)決策。
Google 和 Facebook,則采取了另一條路,他們決定把用戶(hù)評(píng)價(jià)納入到 KPI 中。
Google 在這方面的工作開(kāi)始得比較早,因此公開(kāi)的資料也比較多。概括地說(shuō),他們雇傭大量的普通人,以用戶(hù)的角度來(lái)對(duì) Google 搜索排序的質(zhì)量和廣告推薦的質(zhì)量做主觀打分。
當(dāng)打分的量大到一定程度,這些數(shù)據(jù)就足以成為一個(gè)穩(wěn)定有效的,且可持續(xù)追蹤并改進(jìn)的 KPI 了。Facebook 雖然產(chǎn)品領(lǐng)域有所不同,但在個(gè)性化推薦上也采取了類(lèi)似的方法。
回答的最后,還是想重申兩個(gè)方法論:
- 永遠(yuǎn)不能依靠單一一個(gè) KPI 來(lái)評(píng)價(jià)產(chǎn)品上的工作。任何 KPI,任何產(chǎn)品,都不能。
- 在明確 KPI 局限性的前提下,數(shù)字可以終結(jié)大多數(shù)無(wú)意義的扯皮,無(wú)論是技術(shù)上的,還是政治上的。
相關(guān)閱讀:
「?jìng)€(gè)性推薦」會(huì)讓你難以跳脫自己的小圈子嗎?
作者:宋一松
來(lái)源:http://www.ifanr.com/app/826575
本文來(lái)源于人人都是產(chǎn)品經(jīng)理合作媒體@愛(ài)范兒,作者@宋一松
標(biāo)題黨
有點(diǎn)淺
同感。
大多數(shù)產(chǎn)品數(shù)據(jù)有其局限性,因?yàn)樗鼈兪秋@性而被動(dòng)的。比如說(shuō),你給用戶(hù)推送了一個(gè)博眼球的低俗內(nèi)容,用戶(hù)在當(dāng)下可能是會(huì)去點(diǎn)開(kāi)看的,所以數(shù)據(jù)上是好的。
但用戶(hù)可能心里對(duì)這個(gè)內(nèi)容的評(píng)價(jià)是低的,連帶著對(duì)作為內(nèi)容平臺(tái)的產(chǎn)品也會(huì)看輕,長(zhǎng)此以往對(duì)產(chǎn)品的傷害是巨大的。
這段文字給滿(mǎn)分!
哈哈 少見(jiàn)評(píng)論啊