你知道“點(diǎn)擊搜索框到出現(xiàn)搜索結(jié)果”背后的故事嗎?

1 評(píng)論 12098 瀏覽 107 收藏 14 分鐘

搜索功能在各大APP中可以說是司空見慣的標(biāo)配,相對“社交流量”的信息找人,“搜索流量”是人找信息,它傳遞的是一種“我想知道”的信息。搜索的算法設(shè)計(jì)可以很簡單也可以很復(fù)雜,本文旨在帶對搜索感興趣的你了解“點(diǎn)擊搜索框到出現(xiàn)搜索結(jié)果”背后的故事。

搜索框設(shè)計(jì)思路

先從搜索框的設(shè)計(jì)思路說起。UI元素不多提,主要強(qiáng)調(diào)一下宏觀上“針對不同用戶的不同需求設(shè)計(jì)搜索模塊”的產(chǎn)品思維。

我們看看iOS系統(tǒng)、產(chǎn)品經(jīng)理APP、淘寶、Google的搜索位置和設(shè)計(jì)(如下圖),從左到右依次是手機(jī)系統(tǒng)->閱讀類APP->電商類APP->搜索引擎的代表,用戶在這些場景里對搜索的需求依次增強(qiáng),搜索在頁面上的表現(xiàn)形式也依次增強(qiáng):搜索半隱藏->搜索icon->搜索在頂部欄固定->索索是首頁主體。

(iOS系統(tǒng)、產(chǎn)品經(jīng)理、天貓、Google搜索框設(shè)計(jì))

產(chǎn)品經(jīng)理APP,搜索功能以icon的形式放在首頁右上角,它的搜索功能非常弱(搜索結(jié)果常常不如人意),首頁強(qiáng)調(diào)的是運(yùn)營的結(jié)果——“你應(yīng)該知道”的信息,弱化了搜索功能——“你想知道”的信息,也可能是出于開發(fā)成本的緣由弱化了搜索。

在抖音和快手APP里,抖音將搜索功能以icon的形式放在首頁左上角,快手將搜索功能放在個(gè)人頁(二級(jí)頁面)里,體驗(yàn)下來,抖音的搜索功能的體驗(yàn)比快手更好,快手也是避短了。以上從本質(zhì)上說,都是為了給用戶提供更好的產(chǎn)品體驗(yàn)。

(左:抖音,右:快手)

搜索算法

搜索icon背后的邏輯是通向“理想結(jié)果”的通道,大致分為四步:

  1. 用戶輸入內(nèi)容(稱“query”)
  2. 分析用戶搜索意圖
  3. 根據(jù)用戶輸入的信息對內(nèi)容進(jìn)行篩選召回
  4. 對召回后的結(jié)果進(jìn)行排序

Step1:用戶輸入內(nèi)容

用戶在搜索框輸入的內(nèi)容,常見的是文本,現(xiàn)在也有圖片、語音的方式。

在搜索框內(nèi)設(shè)置“引導(dǎo)暗文”屢見不鮮,它既可以教育新用戶可以搜索哪些關(guān)鍵詞(如下左圖),也可以承擔(dān)運(yùn)營推廣、商業(yè)化的職能(如下右圖)。

(左:多抓魚,右:美團(tuán))

用戶有時(shí)候會(huì)重復(fù)搜索同一內(nèi)容,保留搜索歷史就顯得有必要了。移動(dòng)APP的搜索歷史記錄大致有兩種展示樣式,列表式和按鈕式,按搜索時(shí)間倒序排列,超過顯示條數(shù)會(huì)被折疊。搜索歷史刪除功能有單條刪除或一鍵清除兩種。

搜索歷史記錄下常配有熱門推薦、特色欄目、話題榜等運(yùn)營模塊。在資訊APP中,以熱度榜最為常見,以“標(biāo)題+熱度值或熱度角標(biāo)”的方式出現(xiàn),讓用戶能快速了解當(dāng)前的熱點(diǎn)從而點(diǎn)擊感興趣的內(nèi)容進(jìn)入“消費(fèi)場景”。

這些模塊涉及各自的排序算法或業(yè)務(wù)邏輯,其中蘊(yùn)含商業(yè)化和運(yùn)營價(jià)值,如在熱議榜中穿插運(yùn)營活動(dòng)或廣告或搜索掛件,但要注意熱度和體驗(yàn)的合理性,避免出現(xiàn)突兀感降低用戶的信任感和體驗(yàn)感。

(資訊APP搜索頁面截圖)

如果內(nèi)容類型較多,產(chǎn)品會(huì)傾向于先讓用戶限定范圍再搜索,使搜索結(jié)果更精準(zhǔn),如微信搜索(如下左圖),也有的APP是在搜索結(jié)果上做分類,如資訊APP(如下右圖)。

(左:微信,右:今日頭條)

除了歷史搜索,有沒有其他提高用戶輸入效率、降低輸入錯(cuò)誤率的辦法?

自動(dòng)補(bǔ)全是不錯(cuò)的方法。這是基于產(chǎn)品定位或基于用戶行為/畫像的聯(lián)想部分,對于前者的理解,如用戶在京東APP上搜索水蜜桃,用戶是想購買水蜜桃,而不是想搜索水蜜桃的百科;對于后者的理解,如用戶先前瀏覽過陰陽師手辦,當(dāng)他在搜索框輸入“陰陽師”的關(guān)鍵詞時(shí),“陰陽師手辦”會(huì)是自動(dòng)補(bǔ)全的首選。

(自動(dòng)補(bǔ)全示例)

另外,當(dāng)用戶點(diǎn)擊搜索按鈕后,若需要等待搜索結(jié)果,需要有加載提醒的標(biāo)識(shí),避免用戶認(rèn)為搜索功能無響應(yīng)。

Step2:分析用戶搜索意圖

對用戶搜索意圖的分析涉及分詞和詞語處理。

分詞也稱“文本詞條化”,但總的來說用戶更傾向于輸入“連衣裙 藍(lán)色”代替“我想要買一條藍(lán)色的好看的連衣裙”。分詞依賴分詞庫和詞性判斷,前者需要維護(hù)一個(gè)和產(chǎn)品定位相匹配的詞庫(市面上已有很多開源且豐富的詞庫), 詞庫的維護(hù)涉及新詞發(fā)現(xiàn),從大數(shù)據(jù)的分析可以將新詞發(fā)現(xiàn)的流程自動(dòng)化,人工抽檢即可,例如詞語“中國有嘻哈”是2017年才有的新詞,代表一檔Hip-hop音樂選秀節(jié)目。而詞性判斷涉及用詞性庫和上下文去分析詞語的詞性。

詞語處理包括停用詞過濾、同義詞/近義詞轉(zhuǎn)換、詞條歸一化、自動(dòng)糾錯(cuò)等。

停用詞過濾指剔除“的”、“了”這類無意義的詞或字,主要是通過詞或字出現(xiàn)頻次判斷,市面上也有可用的停用詞庫。

用戶在使用搜索的時(shí)候難免會(huì)有輸錯(cuò)關(guān)鍵詞或表意不清的情況,這時(shí)候理解用戶搜索意圖需要“自動(dòng)糾錯(cuò)”,主要是通過噪聲信道模型去糾正用戶的錯(cuò)誤輸入,糾錯(cuò)的類型一般有:

  1. 同音糾錯(cuò);
  2. 形似字糾錯(cuò);
  3. 多字、少字、錯(cuò)別字、順序錯(cuò)誤;
  4. 模糊音糾錯(cuò),對英文輸入來說,還有大小寫歸一化、詞形時(shí)態(tài)的糾錯(cuò)等。

結(jié)果頁頂部最好保留疑似錯(cuò)誤關(guān)鍵詞的搜索結(jié)果入口,避免機(jī)器誤判損傷產(chǎn)品體驗(yàn)。

(百度搜索“自動(dòng)糾錯(cuò)”示例)

Step3:根據(jù)用戶輸入信息對內(nèi)容進(jìn)行篩選召回

在對內(nèi)容進(jìn)行召回前,我們需要通過索引去連接內(nèi)容,就像查字典時(shí)用的查字目錄。搜索的索引是倒排索引(inverted index),可以簡單理解為“需要根據(jù)屬性的值來查找記錄”。

以電商為例,如下圖:

(倒排索引示例)

召回內(nèi)容時(shí)一般根據(jù)相似度分值擇優(yōu)召回。以資訊APP為例,即計(jì)算關(guān)鍵詞和文章的相似度,通常是通過tfidf算法計(jì)算關(guān)鍵詞和文本的相似度(標(biāo)題、摘要、正文等不同文本有不同權(quán)重)或通過embedding(向量化)召回。

Step4:對召回后的結(jié)果進(jìn)行排序

排序可以考慮內(nèi)容靜態(tài)分,評(píng)論、點(diǎn)贊、收藏等業(yè)務(wù)數(shù)據(jù)可以是影響最終score的因素。如果有個(gè)性化部分(如電商),機(jī)器會(huì)基于用戶畫像,在召回和排序的時(shí)候?qū)⒂脩艨赡茏铌P(guān)心的內(nèi)容優(yōu)先召回和排序。重排環(huán)節(jié)加上業(yè)務(wù)邏輯,如商業(yè)化廣告、運(yùn)營活動(dòng)等,該次搜索的結(jié)果展示list就準(zhǔn)備好了。

對于時(shí)效性要求比較強(qiáng)的產(chǎn)品,如資訊APP,還需要加上一個(gè)時(shí)間衰減因子,避免將老舊內(nèi)容先推出。

Step5:搜索結(jié)果展示

搜索結(jié)果展示頁,常規(guī)的是根據(jù)相似度計(jì)算+業(yè)務(wù)邏輯的“關(guān)鍵詞推薦”,另一種是“聯(lián)想推薦”,適合的場景有:

  1. 在沒有搜索結(jié)果或搜索結(jié)果較少的情況下“拓展”推薦,總比一個(gè)空白頁好;
  2. 除正常的搜索結(jié)果外,補(bǔ)充根據(jù)用戶畫像匹配的內(nèi)容(用戶感興趣的概率高)或通過大數(shù)據(jù)計(jì)算出來的內(nèi)容,作為一種兜底策略;
  3. 承擔(dān)某些運(yùn)營功能。

另外,在搜索結(jié)果頁的一個(gè)小技巧,對命中關(guān)鍵詞的文字進(jìn)行高亮顯示,讓搜索結(jié)果更加“一目了然”。

(資訊APP搜索“慶余年”,結(jié)果展示頁)

搜索指標(biāo)

以資訊APP為例,我們來看看搜索優(yōu)化的核心目標(biāo)、觀測指標(biāo)和算法評(píng)估指標(biāo)。

核心指標(biāo):搜索成功率=有點(diǎn)擊的query次數(shù)/總query次數(shù)(成功的定義可以是一次搜索后有消費(fèi)行為,如滿足時(shí)長指標(biāo)的點(diǎn)擊等)

全鏈路指標(biāo):

搜索算法評(píng)估指標(biāo):NDCG(詳細(xì)請看上一篇《做推薦業(yè)務(wù),這4種機(jī)器效果測評(píng)方法你應(yīng)該知道》

搜索商業(yè)化

目前市面上常見的搜索商業(yè)化有:

  1. 搜索框引導(dǎo)暗文
  2. 搜索框皮膚
  3. 搜索熱門榜單
  4. 熱門搜索掛件
  5. 搜索結(jié)果頁優(yōu)先推薦
  6. 搜索彩蛋

(左中:京東,右:淘寶)

這些位置多以CPM(Cost Per Mille)和CPC(Cost Per Click)的方式進(jìn)行廣告合作,常見的付費(fèi)方式還有CPD(Cost Per Download)、CPA(Cost Per Action)、CPP(Cost Per Purchase)等等。

對“搜索”后續(xù)發(fā)展的看法

目前資訊APP的搜索較少個(gè)性化(電商搜索有部分個(gè)性化),主要是基于NLP去設(shè)計(jì)開發(fā)搜索功能。隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)的發(fā)展,搜索的技術(shù)和功能設(shè)計(jì)也將會(huì)在NLP基礎(chǔ)上,利用用戶行為數(shù)據(jù),往理解用戶(query understanding),搜索延展(query expansion )、搜索推薦(query suggestion)縱深,如深度學(xué)習(xí)模型訓(xùn)練、Learning to rank,如根據(jù)用戶搜索后的點(diǎn)擊行為選擇訓(xùn)練集等等,從而設(shè)計(jì)出更“貼心懂你”的搜索。

我們通過幾個(gè)問題感受下這種趨勢:

  • 如果一次搜索無消費(fèi)行為,二次搜索策略將如何優(yōu)化?
  • 從大數(shù)據(jù)上看,某個(gè)關(guān)鍵詞的搜索結(jié)果中,大多數(shù)用戶傾向于點(diǎn)擊一個(gè)相關(guān)性不如前排的內(nèi)容,是否可以使用這類數(shù)據(jù)優(yōu)化相關(guān)性的限制?
  • 用戶在搜索結(jié)果頁點(diǎn)擊內(nèi)容A后大概率會(huì)點(diǎn)擊其下的相關(guān)內(nèi)容B,這種用戶行為數(shù)據(jù)能否用在搜索的優(yōu)化上?
  • 一個(gè)喜歡吃蘋果和一個(gè)喜歡使用蘋果手機(jī)的用戶,他們某些關(guān)鍵詞的搜索結(jié)果會(huì)一模一樣嗎?

 

本文由 @張小喵Miu 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 哇哦 我準(zhǔn)備分享的主題題目居然這么巧跟你的題目很相似哈哈哈!看了文章很受啟發(fā) 謝謝??

    回復(fù)