搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

0 評(píng)論 11879 瀏覽 53 收藏 12 分鐘

導(dǎo)語:為了能夠更方便的使用搜索,聯(lián)想詞是在產(chǎn)品設(shè)計(jì)的過程中必然要加入的一項(xiàng)功能。而對(duì)人們的意圖進(jìn)行聯(lián)想和預(yù)測,也是未來人工智能語音助手變得更好用的基礎(chǔ)前提。本文作者針對(duì)搜索聯(lián)想詞產(chǎn)品,分析了其定位-評(píng)估和召回策略。

搜索聯(lián)想詞功能提供者:

  1. 免費(fèi)搜索:百度;
  2. 交易類搜索:阿里、京東、PDD、攜程、美團(tuán);
  3. 中小網(wǎng)站:基本無此功能,聯(lián)想詞功能不僅僅是工程問題,還需要一定的AI能力支撐,中小網(wǎng)站往往無力支撐。

一、聯(lián)想詞定位

降低用戶輸入成本,在用戶輸入部分信息就能推薦出用戶想搜索的關(guān)鍵詞。

當(dāng)然直接推薦出用戶想搜索的關(guān)鍵詞,也有其他產(chǎn)品設(shè)計(jì)手段來部分達(dá)成,比如在PC版搜索,用戶在輸入搜索詞之前,第一動(dòng)作是點(diǎn)擊搜索框,這時(shí)會(huì)出現(xiàn)歷史搜索詞,如下圖:

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

因?yàn)橛脩舫3?huì)重復(fù)搜索行為,比如昨天想找什么信息,這個(gè)事情當(dāng)時(shí)沒有解決,今天繼續(xù)進(jìn)行,就需要重復(fù)使用相同的搜索詞繼續(xù)搜索。在APP上,通過歷史搜索(或者最近搜索)+熱門搜索(或者搜索發(fā)現(xiàn))兩種方式完成的,如下圖:

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

搜索歷史是用戶自身過去一段時(shí)間的搜索詞,而熱門搜索是網(wǎng)站所有用戶過去一段時(shí)間的搜索量大的搜索詞。當(dāng)然在具體策略上,召回搜索詞的排序順序可能是綜合多種因素的結(jié)果,比如時(shí)間衰減、搜索詞引導(dǎo)的績效表現(xiàn)等,并不一定完全是進(jìn)過時(shí)間衰減的搜索次數(shù)。

二、效果評(píng)估

聯(lián)想詞產(chǎn)品改進(jìn)目標(biāo)主要是提升推薦搜索詞的經(jīng)營績效和改善用戶體驗(yàn),前者根據(jù)公司的考核方案,比如點(diǎn)擊率的提升,引導(dǎo)的訂單量提升,引導(dǎo)的GMV提升等,也可以是綜合考量,比如各自占一定的權(quán)重,可以通過AB測試看綜合提升效果。

比如:我們將點(diǎn)擊率提升權(quán)重設(shè)置為40%,引導(dǎo)的訂單提升權(quán)重設(shè)置為30%,引導(dǎo)的GMV提升占比設(shè)置為30%,假定點(diǎn)擊率提升10%,引導(dǎo)訂單提升5%,引導(dǎo)GMV下降4%,那么最終的綜合提升為40%*10%+30%*5%+30%*(-4%)=4.3%。

改善用戶體驗(yàn)涉及到如何衡量用戶體驗(yàn),主要是質(zhì)量/用研團(tuán)隊(duì)構(gòu)建測試場景,通過人工測試,能夠盲測更好。

測試主要有兩種方式,第一種方式是與競對(duì)對(duì)標(biāo),對(duì)標(biāo)結(jié)果的體驗(yàn)優(yōu)勢(shì)(我們比競對(duì)好)是否持續(xù)提升,或者體驗(yàn)劣勢(shì)(我們比競對(duì)差)持續(xù)減少,提升或者減少的幅度;第二種方式是僅僅測試自身網(wǎng)站產(chǎn)品,通過改進(jìn)前后badcase場景數(shù)量來衡量。

聯(lián)想詞功能包含如下環(huán)節(jié):

  1. 聯(lián)想詞召回
  2. 候選詞條的排序
  3. 排序后處理
  4. 前端展示和交互
  5. 其他問題

三、聯(lián)想詞召回

問題描述:通過用戶確定的字符召回聯(lián)想詞條。

在中文輸入環(huán)境下,用戶通過輸入法先輸入拼音,再確定要輸入的字符,如果是英文輸入環(huán)境,輸入的字符就是用戶確定的字符,程序根據(jù)用戶確定的字符來召回聯(lián)想詞條。

解決方案:根據(jù)用戶確定的字符進(jìn)行前綴匹配,這些字符類型有字母、漢字,不僅要考慮用戶正確輸入的情況,也要考慮用戶可能錯(cuò)誤的輸入。另外如果用戶確定的是字母,除了純字母前綴匹配外,還需要將字母轉(zhuǎn)換成可能的漢字,通過漢字進(jìn)行前綴匹配。

在中文網(wǎng)站,用戶可能輸入是漢字,也可能是字母(拼音或者英文單詞)。

  • 當(dāng)輸入是漢字時(shí)候:直接利用漢字進(jìn)行前綴匹配召回,這種情況下,還要考慮同音字、音近字的補(bǔ)充召回。同音字主要是輸入法選詞時(shí)用戶的誤選或用戶只知道目標(biāo)詞條的拼音,但是不知道目標(biāo)詞而選錯(cuò)了詞條。

輸入法中選錯(cuò)同音字,比如:用戶要買“五香豆腐干”,結(jié)果選成了“五箱豆腐干“,這時(shí)候需要給出正確的候選詞條,我體驗(yàn)了各類網(wǎng)站,百度和美團(tuán)將候選列出來了。

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

容易混淆的詞條,用戶記錯(cuò)了或者不知道正確的到底是哪一個(gè),比如:紅巖洞和洪崖洞,都是重慶的旅游景點(diǎn),用戶常常容易混淆,我們看百度的聯(lián)想詞。

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

我看這個(gè)能力在其他網(wǎng)站都不具備。百度的自然語言理解能力確實(shí)積累很深厚,其他公司在自身業(yè)務(wù)相關(guān)板塊的積累至少需要數(shù)年時(shí)間。

音近字主要是用戶由于平翹舌(si、shi)不分、前后鼻音(xin、xing)、地域差異的模糊音(比如南方人將“牛奶”發(fā)音為liulai/niulai)導(dǎo)致的拼音輸入錯(cuò)誤導(dǎo)致的選詞錯(cuò)誤?,F(xiàn)在搜狗輸入法已經(jīng)將音近字的問題解決的很好。比如牛奶這個(gè)錯(cuò)誤的輸入就有糾正之后的詞條選項(xiàng):

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

同音字和音近字的召回處理是先將字還原成拼音,通過拼音找同音字和音近字,再將這些字本身,同音字、音近字一起參與召回,并將召回的來源進(jìn)行打標(biāo)區(qū)分,在排序的時(shí)候給與不同的策略處理。

容易混淆的詞條通過大數(shù)據(jù)挖掘方法離線挖掘,挖掘線索可以通過搜索session中詞條時(shí)序,以及詞條的拼音差異來挖掘。比如紅巖洞和洪崖洞,中間僅僅巖(yan)和崖(ya)的拼音區(qū)別一個(gè)字母。

也可以通過百度知識(shí)庫來補(bǔ)充,通過爬百度的聯(lián)想詞結(jié)果和搜索結(jié)果前3條結(jié)果,比如我們百度搜索“紅巖洞”,第二個(gè)結(jié)果為“洪崖洞”百科詞條,說明很多用戶是找“洪崖洞”而不是“紅巖洞”。

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

我們可以將所有的詞條調(diào)用百度搜索,看TOP-N搜索結(jié)果中是否有其他詞條的結(jié)果,有則說明搜索詞表與結(jié)果詞條之間存在一定的混淆關(guān)系,人工審核獲得知識(shí)詞典,進(jìn)而補(bǔ)充到聯(lián)想詞可以大大提升聯(lián)想詞的搜索體驗(yàn)。

  • 當(dāng)輸入是字母,這些字母可能是英文單詞,也可能是拼音自身。
  1. 先假定輸入的字母是正確的,通過字母(英文和拼音)直接前綴召回;
  2. 再假定輸入是正確的拼音,先轉(zhuǎn)換成漢字,通過漢字召回,再增加同音字和近音字拼音作為召回補(bǔ)充;
  3. 最后考慮英文拼寫錯(cuò)誤的問題,英文錯(cuò)誤的糾錯(cuò)通過英文拼寫糾錯(cuò)算法來完成正確的召回。

輸入拼音的聯(lián)想召回處理:不僅是作為完整拼音的全部漢字作為召回,還召回認(rèn)為當(dāng)前是拼音前綴的漢字。

比如:用戶輸入拼音“l(fā)ian”,不僅召回“聯(lián)通客服電話是多少”、“蓮霧”、“蓮藕”、“李安(li-an)”這樣作為完整拼音的詞表前綴,也召回了“梁(liang)晶”作為拼音的前綴。

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

用戶輸入“pin”,作為字母召回“pin碼是什么”,作為英文單詞前綴匹配召回“pink”,“pinterest”,作為完整拼音召回“拼多多”、作為拼音前綴召回“蘋果”、“平安保險(xiǎn)”。

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

我們看英文拼寫糾錯(cuò)的召回,用戶輸入“pinerest”,正確的應(yīng)該是“pinterest”,英文的拼寫糾錯(cuò)算法現(xiàn)現(xiàn)在已經(jīng)非常成熟,稍微查一下都可以找到大量的文獻(xiàn)和成熟的軟件包解決這個(gè)問題。

搜索聯(lián)想詞產(chǎn)品實(shí)踐系列之淺見(一)定位-評(píng)估和召回篇

四、召回截?cái)?/h2>

在召回環(huán)節(jié),往往會(huì)出現(xiàn)召回候選詞條過多的情況,依然需要引入諸如搜索召回的策略:截?cái)唷?/p>

在召回環(huán)節(jié),設(shè)置最大召回池(假定K條結(jié)果),事先對(duì)每條結(jié)果的表現(xiàn),比如點(diǎn)擊率做出預(yù)估,在召回池子滿了的時(shí)候,每增加一條候選,需要剔除當(dāng)前池子最差表現(xiàn)的候選,這樣初步篩選召回前K條候選結(jié)果。

聯(lián)想詞候選排序見下一篇內(nèi)容,我們不見不散。

#專欄作家#

毛新年,公眾號(hào):資深電商專家毛新年,人人都是產(chǎn)品經(jīng)理專欄作家。起點(diǎn)學(xué)院講師,2021年B端產(chǎn)品經(jīng)理大會(huì)演講嘉賓。主導(dǎo)搭建主流電商平臺(tái)搜索推薦商品三大體系,熟悉電商平臺(tái)策略-產(chǎn)品-運(yùn)營-數(shù)據(jù)及研發(fā)各環(huán)節(jié)。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!