電商搜索“優(yōu)化商品排序”實(shí)踐方案
編輯導(dǎo)語:搭建搜索功能不難,難的是如何提高搜索質(zhì)量,幫助用戶快速找到心中所想的內(nèi)容或商品,那么搜索結(jié)果的相關(guān)性排序則是影響用戶體驗(yàn)最關(guān)鍵的一環(huán),本文通過電商行業(yè)的實(shí)際業(yè)務(wù)需求結(jié)合阿里云的開放搜索系統(tǒng)的解決方案,和大家聊一聊如何通過搜索的優(yōu)化,助力業(yè)務(wù)GMV的轉(zhuǎn)化。
一、案例背景
某導(dǎo)購類電商APP,與淘寶天貓等一線商家合作,億級(jí)商品索引量,類目和子類目多層嵌套,商品有不同子款式和尺碼,搜索和篩選需求復(fù)雜。
通過采用分銷+券模式,優(yōu)惠券幫助普通C用戶降低了單品價(jià)格,分銷模式幫助推廣者B增加了用戶數(shù)量,平臺(tái)獲得分成;用戶下單后還可以返現(xiàn)金和優(yōu)惠券,從而提升復(fù)購率。
其中搜索的流量占比站內(nèi)流量60%以上,所以對(duì)于搜索結(jié)果的召回和排序有極高的要求,衡量搜索效果的直接指標(biāo)就是成單轉(zhuǎn)化率。
二、需求反饋
業(yè)務(wù)不斷發(fā)展,用戶量激增,導(dǎo)致搜索延遲,數(shù)據(jù)更新延遲情況,用戶體驗(yàn)不好;需求開發(fā)團(tuán)隊(duì)針對(duì)提升CTR、CVR的業(yè)務(wù)指標(biāo)10%的角度,優(yōu)化現(xiàn)有的核心功能。
三、需求分析
電商行業(yè)中,“搜索”是幫助用戶定位自己想要的商品提升轉(zhuǎn)化的重要渠道;搜索引擎的效果優(yōu)化是一個(gè)很大的話題,在查詢意圖理解階段可以有語義理解、命名實(shí)體識(shí)別、詞權(quán)重分析、拼寫糾錯(cuò)等優(yōu)化手段。
在排序階段更是有很多優(yōu)化干預(yù)的空間,通過配置查詢分析策略和調(diào)整排序公式,我們對(duì)于效果優(yōu)化可以有很大的發(fā)揮空間,再通過AB測試來對(duì)比不同優(yōu)化策略的效果表現(xiàn),我們可以做到效果優(yōu)化心中有數(shù)。
業(yè)務(wù)指標(biāo)數(shù)據(jù)中“點(diǎn)擊率和轉(zhuǎn)化率”可以直觀反映了搜索結(jié)果頁的商品結(jié)果是否滿足用戶的需求。
優(yōu)化召回和排序結(jié)果可以幫助用戶快速找到心中所想的內(nèi)容,是改善用戶體驗(yàn),降低跳出率,促進(jìn)用戶轉(zhuǎn)化率的最好方法。
四、自建Elasticsearch還是黑盒OpenSearch?
之前的幾篇文章都是以黑盒OpenSearch 為最佳實(shí)踐進(jìn)行分析的,很多同學(xué)咨詢和ES的區(qū)別,今天簡單列了幾點(diǎn),僅供參考。
1. 自建Elasticsearch分析
1)人力成本壓力
精準(zhǔn)分詞、查詢Query的智能語義理解、搜索結(jié)果的排序算法,每個(gè)方向分別至少需要2個(gè)資深算法工程師做全人力投入。
2)數(shù)據(jù)不足
分詞和查詢Query的語義理解方面做到業(yè)務(wù)可用的效果,至少需要百萬級(jí)有標(biāo)注的商品和電商搜索關(guān)鍵詞數(shù)據(jù)做訓(xùn)練。
3)投入大量精力不斷調(diào)試
解決查詢延遲問題,復(fù)雜的查詢請(qǐng)求(比如拼音搜索)和高并發(fā)場景下往往會(huì)遇到查詢耗時(shí)猛增的情況,想要做調(diào)優(yōu)不僅要優(yōu)化查詢語法,集群內(nèi)節(jié)點(diǎn)職責(zé)的分配、集群負(fù)載、索引的分片數(shù)和副本數(shù)等也需要花精力琢磨和嘗試做調(diào)優(yōu)。
4)運(yùn)維工作占用時(shí)間比做業(yè)務(wù)還長
會(huì)面臨服務(wù)器宕機(jī)恢復(fù)、數(shù)據(jù)備份、機(jī)器容災(zāi)處理、安全防護(hù)、索引優(yōu)化等細(xì)碎繁瑣的工作;急需擴(kuò)容的時(shí)候還得機(jī)器采購,服務(wù)重新部署,總的來說運(yùn)維側(cè)至少需要1人全精力投入。
5)自建費(fèi)用分析
經(jīng)調(diào)研,數(shù)據(jù)量大、存儲(chǔ)空間要求高的情況下肯定自建價(jià)格更低,但同理花費(fèi)的精力也是很高的。
2. 黑盒-阿里云開放搜索分析
1)淘寶背書
阿里自主研發(fā),淘寶天貓同款的搜索引擎,系統(tǒng)穩(wěn)定性較好。
2)數(shù)據(jù)接入不夠靈活
僅支持RDS、ODPS、POLARDB、API/SDK數(shù)據(jù)接入方式。
3)部署簡單,不需要運(yùn)維
從測試到正式接入差不多10–15天左右,就可以實(shí)現(xiàn)黑盒功能(查詢語義理解、排序、搜索引導(dǎo)、行業(yè)模型,干預(yù)模型等)。
4)費(fèi)用分析
按存儲(chǔ)容量和計(jì)算資源的大小進(jìn)行收費(fèi),體量越大費(fèi)用越高,同理對(duì)搜索要求不高,或者對(duì)數(shù)據(jù)量不大的情況,像20GB,1000LCU的完全可以考慮黑盒產(chǎn)品。
多場景不同索引需購買多個(gè)實(shí)例,針對(duì)實(shí)例較多的,費(fèi)用相比較高。但從節(jié)省的人力成本上看,整體性價(jià)比還是較高的。
電商是一個(gè)針對(duì)搜索效果要求很高的場景,所以綜合考慮業(yè)務(wù)方還是選擇了阿里云的開放搜索系統(tǒng)。
五、阿里云開放搜索解決方案
Query在開放搜索的執(zhí)行流程:
開放搜搜的優(yōu)化方案:
1. 查詢意圖理解優(yōu)化方案
可以參考上一篇文章:《電商搜索“想用戶所想,提高搜索結(jié)果質(zhì)量”實(shí)踐方案》
預(yù)置好的搜索功能,即插即用,高效的解決開發(fā)團(tuán)隊(duì)中缺少合適算法人才難以快速實(shí)現(xiàn)搜索效果的難題。
2. 開放搜索-類目預(yù)測功能
排序不僅僅是按銷量、按人氣、按價(jià)格去排,更應(yīng)該直達(dá)客戶心里,把搜索意圖匹配的產(chǎn)品排在更前的位置。
類目預(yù)測是基于物品的類目信息改善搜索效果的算法功能,類目預(yù)測根據(jù)用戶的查詢?cè)~來預(yù)測用戶想要查詢哪個(gè)類目的結(jié)果,結(jié)合排序表達(dá)式,可以使得更符合搜索意圖的結(jié)果排序更靠前。
例如,用戶搜索“華為”:
大部分人意圖其實(shí)是想獲得“華為手機(jī)”,但因?yàn)殇N量大小、價(jià)格高低、店鋪等級(jí)等各種原因,存在“華為手表”等配件商品排在“華為手機(jī)”更前面。
當(dāng)我們訓(xùn)練“類目預(yù)測模型”,模型就會(huì)表達(dá)出一個(gè)信息,根據(jù)行為數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn)點(diǎn)擊“手機(jī)”類目要比點(diǎn)擊“配件”類目的人多很多,那么模型會(huì)給出這樣的預(yù)測結(jié)果。
對(duì)于“華為”這個(gè)query來說,“手機(jī)”類目與“華為”的相關(guān)度,比“配件”類目與“華為”的相關(guān)度高,所以在計(jì)算每個(gè)物品的排序分的過程中,“手機(jī)”類目下的物品所獲得的得分要比“配件”類目下的物品得分高,從而“手機(jī)”類目下的物品會(huì)排在更前面。
這樣的排序結(jié)果才是一個(gè)比較符合用戶預(yù)期的結(jié)果,用戶才更有可能點(diǎn)進(jìn)去了解詳情,從而提升搜索的業(yè)務(wù)價(jià)值,提升CVR的業(yè)務(wù)指標(biāo)。
3. 排序算法優(yōu)化
可以使用表達(dá)式實(shí)時(shí)調(diào)整排序結(jié)果,緊跟業(yè)務(wù)需求。
1)粗排
從命中的文檔集合里海選出相關(guān)文檔,詳細(xì)機(jī)制看下圖:
2)精排
對(duì)粗排的結(jié)果做更精細(xì)篩選,支持任意復(fù)雜的表達(dá)式和語法,詳細(xì)機(jī)制看下圖:
3)相關(guān)性算分策略
取召回的rank_size(目前是100萬)個(gè)文檔按照粗排表達(dá)式的定義進(jìn)行算分;取粗排分最高的N個(gè)結(jié)果(百級(jí)別)按照精排表達(dá)式進(jìn)行算分,并排序;然后根據(jù)start與hit的設(shè)置取相應(yīng)結(jié)果返回給用戶。
如果用戶獲取的結(jié)果超過了精排結(jié)果數(shù)N,則后續(xù)按照粗排分?jǐn)?shù)排序結(jié)果繼續(xù)展現(xiàn)。
4)引用智能排序人氣模型
離線計(jì)算的模型,淘寶搜索最基礎(chǔ)的排序算法模型。
人氣模型會(huì)計(jì)算量化出每個(gè)商品的靜態(tài)質(zhì)量及受歡迎的程度的值,不斷訓(xùn)練統(tǒng)計(jì)形成人氣分,構(gòu)建更精細(xì)化的排序模型,精準(zhǔn)命中搜索需求,將人氣模型involve成為排序的一個(gè)因子,搜索結(jié)果的轉(zhuǎn)化率還會(huì)有質(zhì)的飛躍。
每個(gè)特征從以上4個(gè)維度中各取一到兩個(gè)進(jìn)行組合,再從歷史數(shù)據(jù)中統(tǒng)計(jì)該組合特征最終的特征值。
比如,商品(實(shí)體)最近1天(時(shí)間)的曝光(行為)量(統(tǒng)計(jì)指標(biāo))、商品所在店鋪(實(shí)體)最近30天(時(shí)間)的銷量(行為類型+統(tǒng)計(jì)維度)等等。
由以上方法產(chǎn)生的特征數(shù)量級(jí),相當(dāng)于4個(gè)維度的笛卡爾積。
4. 聚合打散子句-distinct:
平衡“優(yōu)質(zhì)商品”和“新發(fā)布商品”的展示機(jī)會(huì)。
打散子句可以在一定程度上保證展示結(jié)果的多樣性,以提升用戶體驗(yàn)。
如一次查詢可以查出很多的文檔,但是如果某個(gè)用戶的多個(gè)文檔分值都比較高,則都排在了前面,導(dǎo)致一頁中所展示的結(jié)果幾乎都屬于同一用戶,這樣既不利于結(jié)果展示也不利于用戶體驗(yàn)。
對(duì)此,打散子句可以對(duì)每個(gè)用戶的文檔進(jìn)行抽取,使得每個(gè)用戶都有展示文檔的機(jī)會(huì)。
以上就是今天我要和大家分享如何快速高效解決電商搜索相關(guān)問題的解決方案,希望對(duì)大家有所幫助~
預(yù)告:下一期,會(huì)針對(duì)【搜索引導(dǎo)】上下兩篇內(nèi)容和大家聊一聊搜索相關(guān)功能的解決方案。
作者:KKai,B端產(chǎn)品運(yùn)營
本文由 @KKai 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自 Pexels,基于 CC0 協(xié)議
本文由 @KKai 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
圖片缺失的問題,我在知乎找到一篇一模一樣的文章 ,大家可以點(diǎn)這個(gè)鏈接查看 https://zhuanlan.zhihu.com/p/203177908
好多圖片看不到,好像是 阿里內(nèi)部的資源服務(wù)器地址,需要用域賬號(hào)或者工作賬號(hào)登錄才能看到
機(jī)制的流程圖都沒有了呢,有沒有什么地方能更新下呀
謝謝作者
高手