互聯(lián)網(wǎng)時(shí)代最主要的三種獲取信息方式
![](http://image.woshipm.com/wp-files/img/91.jpg)
搜索、推薦和廣告是互聯(lián)網(wǎng)時(shí)代最主要的三種獲取信息方式。但搜索、推薦和廣告架構(gòu)能統(tǒng)一嗎?就此,本文作者將具體來(lái)分析。
搜索、推薦和廣告是互聯(lián)網(wǎng)時(shí)代最主要的三種獲取信息方式。如果你了解三個(gè)系統(tǒng)的具體實(shí)現(xiàn),甚至自己還分別親手做過(guò),那么你應(yīng)該有一種模模糊糊的印象:似乎有些底層的技術(shù)和數(shù)據(jù)是可以共享的啊,但是為什么我們公司是分屬三個(gè)不同的團(tuán)隊(duì)在搞呢?有時(shí)候似乎還要打個(gè)架什么的。
如果你有這個(gè)模模糊糊的印象,那么我告訴你:你不是一個(gè)人!Hector Molina在Recsys’14上就提出了將搜索、推薦、廣告三合一的觀點(diǎn)[1]。同時(shí),在國(guó)內(nèi)的微博上,也因此掀起了一些討論[2]。微博上的討論先按下不表,我們先來(lái)看看為什么三合一是一種可能的趨勢(shì)?如果要合,又有哪些困難呢?
不同與相似
搜索,推薦和廣告本質(zhì)上都在解決信息過(guò)載的問(wèn)題,各自解決的手段、目標(biāo)不相同,各自誕生在產(chǎn)品生命周期不同階段,以至于系統(tǒng)實(shí)現(xiàn)不盡相同。
從幾個(gè)維度對(duì)比一下,看看他們不同和相同在哪?
搜索要解決的是精確快速找到想要的結(jié)果。最重要的目標(biāo)是降低延遲和提高相關(guān)性。搜索更關(guān)注內(nèi)容消費(fèi)者,用雙手讓他們爽。搜索引擎不會(huì)像社交網(wǎng)站或資訊網(wǎng)站那樣變成time killer,人們依賴搜索而不沉迷搜索就與搜索引擎的目標(biāo)有關(guān)。在搜索解決用戶的信息獲取需求時(shí),很少給予用戶一些驚喜,這也不是搜索的目的,也不會(huì)隨隨便便地利用集體智慧去擴(kuò)充一些不那么直接相關(guān)的結(jié)果。
推薦系統(tǒng)則不同,首先很少有靠推薦系統(tǒng)撐起一款產(chǎn)品,大都是起一個(gè)“錦上添花”的作用,好的推薦系統(tǒng)都會(huì)變成一個(gè)time killer,讓用戶走進(jìn)去就不想出來(lái)那是墜吼的。推薦系統(tǒng)通常不必須要明確表達(dá)需求的“query”,因此在給出的結(jié)果中就有很多發(fā)揮的余地,可以給用戶制造一些驚喜,這一點(diǎn)和搜索很不一樣。
根據(jù)策略不同,推薦系統(tǒng)有不同的實(shí)現(xiàn)方式。比如基于內(nèi)容的推薦,很接近一個(gè)搜索引擎,實(shí)際上很多推薦引擎底層的技術(shù)實(shí)現(xiàn),尤其是數(shù)據(jù)存儲(chǔ)上大量借鑒了搜索相關(guān)技術(shù),比如按照興趣標(biāo)簽對(duì)推薦候選池做倒排索引。另外,搜索是針對(duì)個(gè)人用戶的,一個(gè)用戶發(fā)起一個(gè)請(qǐng)求,而推薦系統(tǒng)既可能真對(duì)單個(gè)用戶進(jìn)行推薦,也可能針對(duì)用戶群進(jìn)行推薦。
廣告則是一個(gè)很特殊的存在,它在產(chǎn)品形式上很像推薦,總是“不請(qǐng)自來(lái)”,而在技術(shù)實(shí)現(xiàn)上又兼有推薦和搜索兩者特點(diǎn),而且它又是一個(gè)商業(yè)驅(qū)動(dòng)的系統(tǒng),所以更多關(guān)注商業(yè)利益最大化。
有一個(gè)很有意思的現(xiàn)象,搜索和推薦的信息對(duì)象理論上可以共用的,也就是說(shuō)可以允許用戶設(shè)置條件檢索一堆候選對(duì)象,也可以把這些候選對(duì)象主動(dòng)推薦給可能感興趣的用戶面前。但是廣告的信息對(duì)象卻是另一個(gè)隔離的存在,為什么不能讓用戶直接設(shè)置條件檢索我們的廣告庫(kù)存呢,就像是一個(gè)通常的搜索引擎一樣?也許是可能的。
抽象看三者
這三個(gè)系統(tǒng)有這些特點(diǎn),對(duì)于大多數(shù)成熟公司,他們已經(jīng)被把持在三個(gè)不同的團(tuán)隊(duì)部門(mén)手中,各自團(tuán)隊(duì)每天在同時(shí)填著大同小異的技術(shù)坑。
我們抽象一下三者的需求共性:本質(zhì)上都是在匹配,匹配用戶的興趣和需求(看成context),但匹配的目標(biāo),條件和策略不盡相同。
進(jìn)一步抽象下去,又可以分為三步:過(guò)濾候選(filter)+排序候選(ranking)+個(gè)性化輸出(personalization)。
過(guò)濾候選這一步在搜索里面天經(jīng)地義,query解析得到查詢意圖,或者更多結(jié)構(gòu)化的搜索條件,用結(jié)構(gòu)化的查詢條件去倒排索引中獲取搜索候選。
與之相似的是廣告系統(tǒng),搜索廣告也是拿著query去獲取候選廣告,而聯(lián)盟廣告則是拿著用戶標(biāo)簽去需求方獲取廣告候選。
filter在基于內(nèi)容的推薦策略中也有類(lèi)似的過(guò)程,而其它推薦策略,比如協(xié)同過(guò)濾或者隱因子模型,一般是提前計(jì)算好的,并沒(méi)有明顯的類(lèi)似搜索一樣的filter,不過(guò)我們?nèi)匀豢梢猿橄蟮匕迅鞣N不同召回策略視為filter這一步,只不過(guò)filter并不是同步進(jìn)行的,而是異步進(jìn)行的。
ranking這一步主要區(qū)別在于排序的目標(biāo)和約束。搜索的排序目標(biāo)是高相關(guān)性,無(wú)論BM25為代表的傳統(tǒng)排序模型還是以Learn to rank為代表的機(jī)器學(xué)習(xí)排序,皆如此,用戶每次在搜索上花費(fèi)的時(shí)間是不是更少(而不是更多)來(lái)衡量搜索的效果。
推薦系統(tǒng)的ranking比較復(fù)雜,相關(guān)性只是很小的部分,根據(jù)推薦系統(tǒng)的產(chǎn)品形式不同,ranking時(shí)排序不同。通常推薦系統(tǒng)用CTR預(yù)估來(lái)融合各種召回策略得到的候選集,如果做得深入,還需要考慮Exploit-Explore問(wèn)題。附加的約束則千變?nèi)f化:電商中,當(dāng)天買(mǎi)過(guò)的當(dāng)天就不能再推了,新聞推薦里,重復(fù)的新聞不能再推了,某些場(chǎng)景需要推薦搭配,某些場(chǎng)景需要推薦相似,topN 推薦還需要考慮多樣性,序列推薦要考慮前序和后續(xù),etc。
廣告系統(tǒng)的排序更多是從經(jīng)濟(jì)學(xué)角度去看,通常CPC廣告的排序方式是結(jié)合預(yù)估CTR、出價(jià)、廣告質(zhì)量三者一起考慮。同時(shí)還要考慮很多別的因素,尤其是商業(yè)因素,平臺(tái)方的要求,廣告主的要求等等,是一個(gè)純動(dòng)態(tài)博弈,正如微軟亞洲研究院的劉鐵巖所介紹那樣[4]。
personalization最被推薦系統(tǒng)看重,而且在某些場(chǎng)合,個(gè)性化一度成為推薦系統(tǒng)的代名詞,然而個(gè)性化只是推薦系統(tǒng)的衡量指標(biāo)之一而已,個(gè)性化的前提也一定是信息夠豐富夠垂直才行;搜索的personalization相對(duì)來(lái)說(shuō)就粗淺一些,常見(jiàn)的是利用地域等人口統(tǒng)計(jì)學(xué)來(lái)做personalization,而且對(duì)于歧義較少的query,搜索如果太個(gè)性化既沒(méi)意義又有風(fēng)險(xiǎn)。
三者的協(xié)同
雖然事實(shí)上三個(gè)系統(tǒng)目前是軍閥割據(jù),但其業(yè)務(wù)和技術(shù)上已經(jīng)有很多重疊,也能夠產(chǎn)生很多協(xié)同作用。
有一部分搜索需求是無(wú)法用搜索相關(guān)性滿足的,比如“一個(gè)人的夜晚聽(tīng)什么歌”這樣的query,需要推薦系統(tǒng)去滿足,交互形式可能是眼下大熱的bot,也可能是傳統(tǒng)的流推薦等等。如果能夠識(shí)別出這樣的搜索請(qǐng)求,其實(shí)更應(yīng)該交給推薦系統(tǒng)來(lái)響應(yīng)。
推薦系統(tǒng)總體上滯后于用戶的即時(shí)需求,所以強(qiáng)大如Amazon這樣的推薦系統(tǒng),也是有搜索引擎來(lái)與之配合的。一方面,搜索因?yàn)槟軌驖M足用戶的主動(dòng)尋找需求,所以能夠化解一些推薦不力不及時(shí)的尷尬;另一方面,搜索可以積累用戶興趣數(shù)據(jù);當(dāng)二者結(jié)合起來(lái)考慮時(shí),可以避免“搜什么推什么”的窘境,整個(gè)系統(tǒng)能夠綜合考慮哪些是即時(shí)快速需求,哪些是長(zhǎng)期興趣。
廣告系統(tǒng),在技術(shù)上和搜索跟推薦并無(wú)本質(zhì)差異,差異在意圖不同,功能不同。對(duì)用戶的信息需求滿足,搜索和推薦離真正得到滿足之間總是有一定的鴻溝,要么是信息不足,要么是信息過(guò)載,這些鴻溝可以利用經(jīng)濟(jì)手段進(jìn)行調(diào)配,也就是廣告系統(tǒng)。
業(yè)界觀點(diǎn)
以上分析只是基于純粹技術(shù)和業(yè)務(wù)角度的簡(jiǎn)單分析,結(jié)束軍閥割據(jù),一統(tǒng)天下似乎是人民的殷殷期盼,然而,這個(gè)“人民”似乎只有你我這種站在“上帝視角”的人們。前面提到,之前在微博上,一眾從業(yè)者集體討論過(guò)這個(gè)問(wèn)題[2][3],討論總結(jié)為:
- 幾乎所有人都覺(jué)得這個(gè)提法是意料之中,也承認(rèn)三者有統(tǒng)一的概念基礎(chǔ),對(duì)此亦有共識(shí);
- 僅有少數(shù)公司(豆瓣)有成功的統(tǒng)一案例,并沒(méi)有人提出業(yè)界還有類(lèi)似案例;
- 少數(shù)前輩(@清風(fēng)運(yùn)文,@張棟_機(jī)器學(xué)習(xí)) 三個(gè)系統(tǒng)都經(jīng)歷過(guò),認(rèn)為實(shí)際上困難重重,困難不在框架上,在細(xì)節(jié)上,各自優(yōu)化需求差別很大;
- 還有一些人調(diào)侃說(shuō)來(lái)自人的困難大于技術(shù)上的困難,這個(gè)自己體會(huì)不一樣,沒(méi)法寫(xiě)論文。
總之,從這篇微博看到的討論來(lái)說(shuō),幾乎都持悲觀態(tài)度。
我的看法
基于以上的討論觀點(diǎn)及事實(shí),雖然業(yè)界很悲觀,但并不是毫無(wú)希望,總結(jié)幾點(diǎn):
1. 三者有統(tǒng)一的可能性,而且不低;
2. 在已經(jīng)被割據(jù)的公司里,再重新一統(tǒng)天下非常困難,投入產(chǎn)出比會(huì)很低;
如果要統(tǒng)一,從0就開(kāi)始,所以更適合創(chuàng)業(yè)公司或中小公司,可能這也是為什么豆瓣有成功案例的原因;
3. 由于人的因素很重,所以從一開(kāi)始就應(yīng)該把三者劃歸一個(gè)團(tuán)隊(duì)來(lái)統(tǒng)一規(guī)劃,人員配置上:技術(shù)上統(tǒng)一,業(yè)務(wù)上分開(kāi)。
4. 必須用數(shù)據(jù)證明統(tǒng)一之后比統(tǒng)一之前好,而不是工程師自己“感覺(jué)不錯(cuò)”,這個(gè)“好”可以體現(xiàn)在實(shí)際上的業(yè)務(wù)指標(biāo)提升,也可以體現(xiàn)在開(kāi)發(fā)效率提升。
參考文獻(xiàn)
[1] Information Seeking: Convergence of Search, Recommendations and Advertising
[2] http://ml.memect.com/remix/3783095167238447.html
[3] 看了Hector Molina在Recsys’14上提的Search……來(lái)自Arber
[4] 劉鐵巖:在微軟大學(xué)的三次華麗轉(zhuǎn)型
作者:陳開(kāi)江@刑無(wú)刀(微信:kaijiang_chen),資深推薦系統(tǒng)從業(yè)者,歡迎交流。
本文由 @刑無(wú)刀 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!