搜索策略:PC端時(shí)代起的流量入口
搜索引擎曾經(jīng)是PC端第一流量入口,百度就靠這個(gè)成就了BAT的江湖地位。雖然現(xiàn)在昔日榮光不在。但搜索功能依然是部分APP最大的流量入口。這篇文章,我們就來梳理下這個(gè)搜索功能的過往。
一、引入
早在PC互聯(lián)網(wǎng)時(shí)代,搜索引擎便是流量的主要入口。由于網(wǎng)站數(shù)量的快速增長(zhǎng),傳統(tǒng)人工瀏覽的方式已經(jīng)不能滿足用戶獲取信息的需求,為此1995年誕生了很多早期的搜索引擎公司,如Yahoo、Excite、InfoSeek等。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,雖然一些內(nèi)容類App上推薦系統(tǒng)主導(dǎo)了流量的整體分發(fā),但在一些綜合類電商App上(如淘寶、京東),搜索仍是最大的流量入口。
1.搜索引擎的5個(gè)時(shí)代
①分類目錄時(shí)代。
1990年,Archie by加拿大麥吉爾大學(xué),用于FTP(file transfer protocol)軟件上的文件搜索,Archie可以根據(jù)文件名稱查詢文件所在FTP地址,然而它并非現(xiàn)代意義上的搜索引擎(不能搜網(wǎng)頁、沒有機(jī)器人程序爬取,故只是雛形)。1994你那,卡內(nèi)基梅隆大學(xué)創(chuàng)辦的Lycos被公認(rèn)是第一代互聯(lián)網(wǎng)搜索引擎的代表,可以按分類目錄進(jìn)行搜索,然后這些信息被統(tǒng)一歸類到一個(gè)網(wǎng)站上。
第一代搜索引擎的核心技術(shù):網(wǎng)頁爬蟲能力、網(wǎng)頁分類能力。
第一代搜索引擎的核心問題:如何通過機(jī)器自動(dòng)爬取這些網(wǎng)頁,并將這些網(wǎng)頁歸類到對(duì)應(yīng)目錄下。
②文本檢索時(shí)代
1996年,產(chǎn)生了支持用戶輸入檢索詞并返回信息的檢索方式,系統(tǒng)計(jì)算相關(guān)性,返回網(wǎng)頁并排序,代表引擎是Excite、Alta Vista。
③鏈接分析時(shí)代
為了排除垃圾網(wǎng)站,斯坦福大學(xué)學(xué)生(Google創(chuàng)始人)推出了全新的排序算法:PageRank,核心思想是通過網(wǎng)頁之間的互相鏈接來側(cè)面反映網(wǎng)頁的流行性和權(quán)威性,該算法主要用于網(wǎng)頁排序。02年世界門戶網(wǎng)站基本都在使用Google搜索引擎,Google整合成了一個(gè)門戶網(wǎng)站的狀態(tài)。
第三代搜索引擎的核心技術(shù):高效匹配用戶的檢索詞和網(wǎng)頁內(nèi)容,返回高關(guān)聯(lián)度的相關(guān)內(nèi)容并過濾低質(zhì)內(nèi)容,結(jié)合流行性和權(quán)威性進(jìn)行科學(xué)排序,缺點(diǎn)在于未考慮個(gè)體的差異性,返回結(jié)果所有人都一樣。
④多功能+個(gè)性化+弱人工智能系統(tǒng)
第四代搜索引擎除了在功能上支持文本搜索以外,還需要支持圖片搜索、識(shí)曲搜索、視頻搜索、語音搜索等多種功能,召回和排序需要重點(diǎn)考慮個(gè)性化,對(duì)于不同用戶,同一檢索詞返回的內(nèi)容不同但更合適,得益于AI的不斷進(jìn)步。
⑤強(qiáng)人工智能時(shí)代
第五代搜索引擎需要以解決用戶實(shí)際問題為出發(fā)點(diǎn),當(dāng)網(wǎng)絡(luò)上沒有現(xiàn)成答案時(shí)可以自行為用戶解答,具備知識(shí)問答的功能,Bing在第五代搜索引擎中已經(jīng)拔得頭籌。(搜索引擎是一個(gè)需要強(qiáng)積累的技術(shù)產(chǎn)品,不太可能突然誕生一個(gè)強(qiáng)有力的新秀)
2. 搜索引擎的分類
搜索引擎主要分為兩大類:
- 綜合類搜索引擎:以Google、Baidu為代表,支持用戶對(duì)各類不同領(lǐng)域的內(nèi)容進(jìn)行搜索。
- 垂直類搜索引擎:以淘寶、小紅書為代表,嵌套在某個(gè)產(chǎn)品里或者某個(gè)場(chǎng)景下,針對(duì)某些特定屬性的內(nèi)容進(jìn)行搜索。
對(duì)于垂直類搜索引擎,比如電商App搜索引擎,仍是以電商App第一大流量入口,搜索引擎貢獻(xiàn)GMV差不多占電商App整體GMV的70%,在其上進(jìn)行微小策略優(yōu)化最終產(chǎn)生的絕對(duì)收益是非常大的。
二、搜索引擎概述
1.搜索引擎簡(jiǎn)介
1.1.搜索引擎的定義:
本質(zhì)上是一種信息檢索系統(tǒng),從海量的信息中檢索出和用戶查詢相關(guān)的信息,現(xiàn)階段不僅有搜索的功能,也有推薦系統(tǒng)(信息過濾系統(tǒng))的邏輯。因?yàn)楹Y選之后推薦感興趣的也是搜索引擎需要解決的問題。
1.2.搜索引擎需要實(shí)現(xiàn)的目標(biāo)
- 精準(zhǔn):理解用戶意圖,返回高相關(guān)的匹配內(nèi)容。這是搜索引擎最重要的目標(biāo),其他目標(biāo)都需要以該目標(biāo)為前提。此處的“精準(zhǔn)”不僅是指物料和檢索詞之間的相關(guān)性匹配,還包括物料與用戶個(gè)性化偏好、差異化需求的精準(zhǔn)匹配。
- 全面:一方面是內(nèi)容的全面,搜索引擎能夠滿足所有需求;另一方面是功能的全面,支持不同場(chǎng)景下的需求。
- 可運(yùn)營(yíng):除平臺(tái)整體以算法為導(dǎo)向的策略調(diào)控,還需要具有完善的以強(qiáng)業(yè)務(wù)干預(yù)為導(dǎo)向的人工運(yùn)營(yíng)功能。
- 可反哺:對(duì)于電商,用戶檢索行為信息可以作為業(yè)務(wù)人員采用商品的參考;對(duì)于內(nèi)容搜索引擎,可以指導(dǎo)平臺(tái)的內(nèi)容生產(chǎn)。
1.3.搜索引擎需要解決的關(guān)鍵問題:
- 準(zhǔn)確識(shí)別用戶的查詢意圖:處理大量不規(guī)范檢索詞時(shí)如何更好地識(shí)別復(fù)雜檢索詞背后的真實(shí)意圖。
- 實(shí)現(xiàn)查詢和物料的匹配:如何從平臺(tái)上海量的物料中召回相關(guān)的物料,物料豐富時(shí)擇優(yōu),物料匱乏時(shí)找替代,降低搜索到空結(jié)果率。
- 科學(xué)地對(duì)返回的物料進(jìn)行排序:基于用戶個(gè)性化偏好和物料本身的相關(guān)性、權(quán)威性、流行性等因素進(jìn)行科學(xué)的排序,此世搜索引擎有了推薦系統(tǒng)的邏輯。
- 做到有問必答,解決用戶大部分查詢需求:第五代搜索引擎需要解決的關(guān)鍵問題。
2. 搜索引擎整體架構(gòu)
以上是一個(gè)完整的搜索引擎應(yīng)該有的功能模塊,常見的流程包括建立物料索引、查詢語義理解、召回、粗排、過濾、精排、重排,最終在前端為用戶返回搜索結(jié)果。(比推薦策略多了兩個(gè)功能模塊:查詢語音理解與詞庫),但是單個(gè)模塊的子功能相對(duì)推薦系統(tǒng)更多,且處理邏輯有差異;
2.1 搜索前和搜索中的模塊
按照用戶搜索的流程可以將用戶行為分為搜索前、搜索中、搜索后三個(gè)部分。在搜索前、中兩個(gè)模塊,一般設(shè)置搜索底紋、搜索排行榜以及搜索聯(lián)想詞等功能,起到降低復(fù)雜度、引導(dǎo)的功能,同時(shí)也會(huì)針對(duì)錯(cuò)誤檢索詞自動(dòng)糾錯(cuò)。
2.2.查詢語義理解
該模塊主要作用是充分理解用戶的檢索詞,構(gòu)建查詢語法樹,輸入召回模塊中。查詢語法樹的構(gòu)建一般需要經(jīng)歷以下幾個(gè)環(huán)節(jié):
- 將錯(cuò)誤的輸入內(nèi)容糾正為正確的檢索詞。
- 基于詞庫對(duì)原始檢索詞進(jìn)行分詞,針對(duì)每個(gè)詞打上具體的實(shí)體類型,為每種實(shí)體類別設(shè)置相應(yīng)的權(quán)重分。
- 基于切詞后的實(shí)體構(gòu)建查詢語法樹。
查詢語法樹決定了檢索詞中哪些實(shí)體詞參與召回、哪些實(shí)體詞僅參與排序等。
2.3.詞庫和實(shí)體體系
該體系可以理解為查詢語義理解模塊的輔助功能模塊,分詞的基礎(chǔ)便是詞庫。在實(shí)際使用中用戶需要有針對(duì)地構(gòu)建自己的詞庫,詞庫的構(gòu)建沒有捷徑。
2.4.召回
查詢語法樹構(gòu)建好后的環(huán)節(jié)就是物料召回,搜索引擎召回和檢索詞相關(guān)的物料,采用多路召回架構(gòu)(召回路數(shù)遠(yuǎn)小于推薦系統(tǒng))。目前常見的召回方式有:文本召回、語義相關(guān)性召回、個(gè)性化召回。
在綜合類搜索引擎,召回不會(huì)翻頁刷新,但是在垂直類搜索引擎內(nèi)搜索引擎下翻時(shí)會(huì)進(jìn)行翻頁刷新。
2.5.物料索引
搜索引擎進(jìn)行召回時(shí)還要用到一個(gè)輔助模塊,即物料索引。因?yàn)樾枰倩睾蜋z索詞相關(guān)度高的物料,所以需要針對(duì)物料提前構(gòu)建倒排索引。搜索引擎中的物料需要基于物料的標(biāo)題等對(duì)物料的信息進(jìn)行切詞處理,針對(duì)每一個(gè)詞構(gòu)建對(duì)應(yīng)的倒排索引,當(dāng)用戶查詢時(shí),可以快速檢索到對(duì)應(yīng)的結(jié)果。
2.6.過濾
過濾環(huán)節(jié)在粗排和精排環(huán)節(jié)前,一方面是避免無效物料進(jìn)入后續(xù)環(huán)節(jié),影響后續(xù)效果,另一方面是提前過濾無效物料,減少無效環(huán)節(jié)的計(jì)算量。對(duì)于垂直類搜索引擎,主要按照SKU的庫存、上下架、是否涉及黃賭毒進(jìn)行過濾;對(duì)于綜合類搜索引擎,主要針對(duì)是否包含黃賭毒或者政治敏感信息等進(jìn)行過濾。一般來說,對(duì)于同一個(gè)APP,搜索引擎和推薦系統(tǒng)的過濾邏輯基本一致。
2.7.粗排
粗排的目的是對(duì)搜索結(jié)果進(jìn)行初篩,基于召回點(diǎn)擊率or召回轉(zhuǎn)化率的邏輯,搜索引擎會(huì)有更多的排序因子。
2.8.精排
精排模型的目的是實(shí)現(xiàn)單點(diǎn)最優(yōu)(point wise),主要用于預(yù)估單個(gè)搜索引擎的CTR和CVR。電商領(lǐng)域以預(yù)測(cè)CVR為主,綜合搜索引擎以預(yù)測(cè)CTR為主。
2.9.重排
三大重排策略:全局最優(yōu)、用戶體驗(yàn)和流量調(diào)控,實(shí)際落地要求不一樣,需要以“序列最優(yōu)”為核心目標(biāo)對(duì)搜索結(jié)果進(jìn)行重排。用戶體驗(yàn)的關(guān)鍵在于搜索結(jié)果的精準(zhǔn)性和全面性。搜索結(jié)果頁的流量調(diào)控主要包括對(duì)商家、新創(chuàng)作者和新品的一些扶持。重排模塊里的物料排序就是最終展示在前端的物料排序。
2.10.搜索后模塊
配上搜索結(jié)果的樣式和創(chuàng)意。
2.11.特征服務(wù)
特征服務(wù)作為一種公共服務(wù),可以供搜索引擎各個(gè)環(huán)節(jié)進(jìn)行調(diào)用,推薦系統(tǒng)和搜索系統(tǒng)經(jīng)常共用一個(gè)大的特征服務(wù)模塊。
3. 常見效果指標(biāo)評(píng)估
搜索引擎包括召回和排序兩大模塊,模型也分為CTR預(yù)估模型和CVR預(yù)估模型兩種。對(duì)這兩種模型進(jìn)行離線效果評(píng)估時(shí)和推薦系統(tǒng)一樣使用AUC指標(biāo)。在實(shí)際評(píng)估時(shí)會(huì)拆分得更細(xì),分為離線和在線兩個(gè)方面。
3.1.離線評(píng)估指標(biāo)
- 數(shù)據(jù)標(biāo)注:搜索引擎初期需要對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注,明確物料庫里哪些物料應(yīng)該召回,哪些物料不應(yīng)該召回,完善人工標(biāo)注的數(shù)據(jù)集才能進(jìn)行離線效果評(píng)估。
- 召回完整性:核心評(píng)估指標(biāo)是召回率
- 排序合理性:搜索引擎不僅要將所有商品召回,還應(yīng)確保排序合理,理論上應(yīng)該將評(píng)分最高的結(jié)果排在最前面。評(píng)估搜索結(jié)果排序的合理性時(shí),一般使用DCG(discounted cumulative gain,折損累計(jì)收益)和NDCG指標(biāo)(normalized discounted cumulative gain,歸一化折損累計(jì)收益)。
3.2.在線評(píng)估指標(biāo)
離線效果評(píng)估主要評(píng)估搜索結(jié)果的召回完整性和排序合理性,在線效果評(píng)估可以通過多方面的指標(biāo)來評(píng)估搜索引擎的結(jié)果。
- 查詢無結(jié)果率 = 無結(jié)果返回的PV數(shù)/總搜索PV數(shù),指標(biāo)越高,搜索引擎召回模塊效果越差。
- 平均點(diǎn)擊結(jié)果位數(shù) = 總點(diǎn)擊結(jié)果位數(shù)/總搜索PV數(shù),指標(biāo)越小,排序模塊效果越好
- 跳失率 = 跳失PV數(shù)/總搜索PV數(shù),指標(biāo)越高,搜索引擎效果越差
- CTR = 點(diǎn)擊結(jié)果數(shù)/曝光結(jié)果數(shù),統(tǒng)計(jì)口徑可以分為UV、PV和曝光件次口徑
- CVR = 訂單數(shù)/點(diǎn)擊數(shù),評(píng)估搜索引擎的綜合效果,統(tǒng)計(jì)口徑可以分為UV、PV和曝光件次口徑;訂單數(shù)可以分訂單行和訂單量?jī)煞N口徑。
對(duì)于綜合搜索類引擎來說,核心考核指標(biāo)是CTR;對(duì)于電商類搜索引擎來說,核心考核指標(biāo)是CVR,電商業(yè)務(wù)以GMV為首頁目標(biāo),搜索引擎需要盡可能將用戶的每一次搜索轉(zhuǎn)化為訂單。
4. 搜索策略產(chǎn)品經(jīng)歷畫像
搜索策略產(chǎn)品經(jīng)理是最早的策略產(chǎn)品經(jīng)理,因?yàn)樗阉饕嬖诠I(yè)領(lǐng)域最早得到廣泛應(yīng)用。最早一批搜索策略產(chǎn)品經(jīng)理大多來自Google、Yahoo等知名的搜索引擎平臺(tái)。
搜索引擎可以分為綜合類搜索引擎和垂直類搜索引擎。垂直類搜索引擎可以細(xì)分為電商搜索引擎、短視頻搜索引擎、內(nèi)容社區(qū)搜索引擎等,雖然搜索引擎的細(xì)分方向很多,但搜索策略產(chǎn)品經(jīng)理的工作主要包括以下3項(xiàng)。
1)召回。和召回有關(guān)的策略包括查詢語義理解模塊策略、召回模塊策略。這兩個(gè)模塊細(xì)分的功能有檢索詞解析、糾錯(cuò)、檢索詞改寫、查詢語法樹構(gòu)建等,均由此部分的策略產(chǎn)品經(jīng)理負(fù)責(zé)。在日常生活中,策略產(chǎn)品經(jīng)理需要分析大量案例,做大量的案例評(píng)估,分析檢索詞和搜索結(jié)果之間的相關(guān)性,基于案例評(píng)估結(jié)果與優(yōu)化查詢語義理解模塊和召回模塊的策略。部分互聯(lián)網(wǎng)公司把查詢語義理解模塊單獨(dú)剝離出來,由專人負(fù)責(zé)。
2)排序。策略涉及工作包括整體流量分發(fā)策略制定、排序公司的設(shè)定、精排模型和重排模型的樣本選擇、特征工程等。
3)平臺(tái)生態(tài)。配合平臺(tái)生態(tài)相關(guān)策略的制定。
本文由 @乾意 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!