亚洲欧美精品伊人久久，97精品无码永久在线，激情五月天无码在线，在线中文字幕，亚洲欧美精品在线观看，91污视频在线观看，亚洲最大的aⅴ久久网站，久久av小草影院强奸

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

「推薦系統(tǒng)」評估指南，準(zhǔn)≠好

58UXD

2020-09-19

0 評論 14894 瀏覽 51 收藏

16 分鐘

編輯導(dǎo)語：很多人都會有這樣的經(jīng)歷，在淘寶剛搜了一個商品后，推薦里就會出現(xiàn)大部分類似的商品；或者你購買了一個商品后，會看見此商品配件的推薦；這就是推薦系統(tǒng)，推薦系統(tǒng)是如何進行評估？怎么評估才不會引起用戶的不適？本文對此進行了詳細的介紹，我們一起來看一下。

對于當(dāng)下的互聯(lián)網(wǎng)產(chǎn)品，無論是主流或非主流，處處都能看到推薦系統(tǒng)的應(yīng)用場景。

比如，當(dāng)你在淘寶下單購買了一臺iPhone 11，購買完成頁下方立刻就會給你推薦諸如「全新AirPods Pro」、「Apple Watch 5」等相關(guān)商品；再比如，當(dāng)你在豆瓣上標(biāo)記了想看熱門懸疑網(wǎng)劇《隱秘的角落》，在廁所刷抖音的時候，可能就會看到《無證之罪》、《輪到你了》、《白夜追兇》等等相似劇集的精彩片段；推薦系統(tǒng)這只無形的「大手」已經(jīng)把我們安排的明明白白了。

推薦系統(tǒng)的強大毋庸置疑，而且我們經(jīng)常會把它看作是一個神秘的黑箱子，會將其與多種復(fù)雜的技術(shù)術(shù)語相關(guān)聯(lián)，比如“大數(shù)據(jù)”、“人工智能”、“機器學(xué)習(xí)”等等，進而認(rèn)為推薦系統(tǒng)的好壞，就是對用戶偏好預(yù)測的精準(zhǔn)與否；然而，不久前完成的一個研究課題，打破了這個認(rèn)知誤區(qū)。

一、推薦系統(tǒng)的本質(zhì)

面對這個課題，首先需要回答的就是：如何定義推薦系統(tǒng)的好壞？

其實，這個問題有一種最符合直覺的答案，即越能精準(zhǔn)預(yù)測用戶需求的推薦系統(tǒng)就是好的；乍一看，這個答案幾乎沒什么問題，然而，精準(zhǔn)預(yù)測只是一個好的推薦系統(tǒng)的必要條件。

那究竟什么才是「好」？要回答這個問題，我們需要先了解推薦系統(tǒng)的本質(zhì)。

推薦系統(tǒng)（Recommend System）的研究由來已久，這一概念初次被提及，是在1990年哥倫比亞大學(xué)研究者Jussi Karlgren的著作中，直到1994年才成為一個相對獨立的研究領(lǐng)域；雖然這一領(lǐng)域已經(jīng)有30年的研究沉淀，但業(yè)內(nèi)對推薦系統(tǒng)的定義仍未達成一致，不過密歇根大學(xué)的研究者Resnick和Varian在1997年提出了一個較為公認(rèn)的定義：“推薦系統(tǒng)是利用電子商務(wù)網(wǎng)站向顧客提供商品信息和建議，幫助用戶決定應(yīng)該購買什么產(chǎn)品，模擬銷售人員幫助客戶完成購買過程”。

以上這段描述反映了推薦系統(tǒng)最本質(zhì)的三個問題：

如何精準(zhǔn)的預(yù)測用戶的需求？
如何全面細致地描述網(wǎng)站上的信息？
如何給用戶推薦最適合的信息？

“預(yù)測用戶”&“描述信息”主要是依賴技術(shù)團隊的算法，而且業(yè)內(nèi)在該方面的研究相對比較成熟。

目前常用的預(yù)測技術(shù)包括：基于內(nèi)容的推薦、協(xié)同過濾推薦、基于知識的推薦、基于網(wǎng)絡(luò)結(jié)構(gòu)的推薦、組合推薦及其他推薦等等，由于技術(shù)難度較硬核，在此不做展開。

在確保預(yù)測精準(zhǔn)及全面描述的基礎(chǔ)上，便是“推薦”最合適的信息給用戶了，但什么是最合適的？這個評判的標(biāo)尺就拿捏在用戶的手上。

二、推薦系統(tǒng)的評估維度

接下來就是關(guān)于如何評估推薦系統(tǒng)的好壞，業(yè)內(nèi)普遍認(rèn)為，推薦系統(tǒng)的評估涉及兩大范疇的維度：準(zhǔn)確度（Accuracy）和可用性（Usefulness）。

其中，準(zhǔn)確度表示推薦系統(tǒng)預(yù)測用戶行為的能力，主要根據(jù)離線實驗的方式來評估；可用性更多反映的是用戶的主觀體驗，常見的評估指標(biāo)包括多樣性（Diversity）、新穎性（Novelty）、驚喜度（Serendipity）、信任度（Trust）及實時性（Utility）等。

1. 多樣性（Diversity）

多樣性是指每條推薦信息的兩兩不相似程度，如果推薦結(jié)果過于單一，勢必會讓用戶失去不斷瀏覽的興趣；而單純的增加多樣性并不算難，挑戰(zhàn)主要在于如何增加推薦信息多樣化的同時，又可以保證結(jié)果符合用戶的「口味」。

2. 新穎性（Novelty）

新穎性是指推薦結(jié)果中出現(xiàn)的用戶以往沒看到的信息，提升新穎性最常用的辦法是根據(jù)平均流行度來推薦，把流行度較低的信息提供給用戶，會增加其新穎性感知。

但是，一味提升新穎性也未必會增加用戶滿意度，同樣需要在確保精準(zhǔn)性的前提下進行。

3. 驚喜度（Serendipity）

之所以會把驚喜度作為一個指標(biāo)，納入推薦系統(tǒng)評估的體系中，是為了衡量推薦系統(tǒng)解決如下問題的能力：用戶面對之前他們已經(jīng)遇到的推薦結(jié)果，他們變得越來越厭煩，推薦系統(tǒng)需要提供讓用戶感到既新奇又有吸引力的信息。

「驚喜」與「新穎」在中文語境中有些相似，但在此處并不相同，筆者通過以下示例來做說明。

比如，你平時會用網(wǎng)易云音樂來聽歌，比較喜歡周杰倫、林俊杰這類R&B歌手，幾乎聽遍了他們專輯中的所有歌曲；如果系統(tǒng)給你推薦了《夏天的風(fēng)》這首歌，而且你之前沒聽過，但是當(dāng)你看了這首歌的封面，發(fā)現(xiàn)是周杰倫創(chuàng)作的，充其量也就會感覺還比較新穎，但未必會有驚喜的感覺；如果系統(tǒng)給你推薦了一首從創(chuàng)作、演唱到曲風(fēng)完全不同于以往聽過的R&B的歌曲，但你聽完之后發(fā)現(xiàn)很喜歡，那這時候你就不只覺得新穎，更會有一種驚喜的感覺。

4. 信任度（Trust）

信任度也是衡量推薦系統(tǒng)好壞的重要維度，顧名思義——信任度指的就是用戶對推薦系統(tǒng)的信任程度；信任度高的推薦系統(tǒng)更易引導(dǎo)用戶產(chǎn)生交互行為，影響信任度的不只包括推薦的內(nèi)容，也包括推薦的樣式。

目前提升信任度的方式主要包括增加推薦系統(tǒng)的可解釋性（Explanation，即推薦理由），或者引入社交網(wǎng)絡(luò)信息（熟人推薦易提升信任度）。

用研面面觀 | 「推薦系統(tǒng)」評估指南，準(zhǔn)≠好

微信「看一看」展示的部分信息，即外露了社交關(guān)系相關(guān)的推薦理由。

5. 實時性（Utility）

該指標(biāo)主要指——當(dāng)用戶與推薦系統(tǒng)發(fā)生交互行為后，推薦信息列表是否及時的發(fā)生變化；如果用戶產(chǎn)生若干信息檢索行為后，系統(tǒng)推薦的信息依然不變，顯然該推薦系統(tǒng)未能實時學(xué)習(xí)用戶的需求偏好；尤其對于信息具有較強時效性的產(chǎn)品，該指標(biāo)顯得更為重要，比如新聞資訊類、部分生活服務(wù)類平臺。

三、推薦系統(tǒng)評估案例

下面就以筆者近期接到的一個需求為例，說明推薦系統(tǒng)體驗評估的操作方法。

1. 需求背景

58同城平臺上，提供了包括招聘、房產(chǎn)、二手車、本地服務(wù)等多種生活服務(wù)類信息，每類信息都有相應(yīng)的個性化推薦系統(tǒng)，雖然推薦系統(tǒng)在不斷優(yōu)化，但更多的是針對算法層面的提升，而推薦系統(tǒng)在用戶主觀體驗方面的研究尚屬空白，因此需要通過專項調(diào)研了解推薦系統(tǒng)現(xiàn)狀及優(yōu)化方向。

2. 評估方法選擇

在做推薦系統(tǒng)評估時，以往多會采用一種叫做“Case by Case”的方式，即讓用戶針對推薦結(jié)果逐條進行“Yes or No”的評價，這種評估方式的優(yōu)點是：評估是實時性的，指向明確，顆粒度較細；但缺點也很明顯，樣本選擇不具有代表性，缺乏統(tǒng)計學(xué)意義，而且評價過于簡單，僅能反應(yīng)用戶主觀準(zhǔn)確性。因此，為了能使評估結(jié)果有更好的代表性，包括更全面的評估維度，我們選擇采用定量問卷的方式。

3. 評估業(yè)務(wù)選擇

在正式開始實施評估前，還需要明確一個問題：是針對58全業(yè)務(wù)進行評估，還是針對不同業(yè)務(wù)線分別評估？由于58各業(yè)務(wù)獨立性較強，且用戶多會進入對應(yīng)業(yè)務(wù)的專屬頻道進行查找，因此，我們與需求方溝通后，決定針對不同業(yè)務(wù)線單獨評估，并且決定先以租房業(yè)務(wù)線為試點進行，跑通后再復(fù)用至其他業(yè)務(wù)線。

4. 評估場景選擇

即使僅針對單一業(yè)務(wù)線來進行評估，推薦系統(tǒng)的落地場景仍不止一處，如何選擇具體的評估場景，可以依據(jù)該場景的曝光量及用戶狀態(tài)來選擇，針對58租房業(yè)務(wù)線，推薦系統(tǒng)主要會在App首頁Feed流、租房頻道首頁Feed流、信息列表頁及房源詳情頁底部推薦4處呈現(xiàn)給用戶，但首頁Feed流中會混雜其他業(yè)務(wù)信息，較難僅針對租房進行評估，進入信息列表頁的用戶多屬目的性較強的用戶，并非推薦系統(tǒng)目標(biāo)用戶，因此，本次需要評估的頁面場景確定為租房頻道首頁Feed流（如下圖）。

用研面面觀 | 「推薦系統(tǒng)」評估指南，準(zhǔn)≠好

58租房推薦評估入口，選擇了以Banner的方式常駐于租房首頁Feed中。

5. 評估結(jié)果

通過以上評估方案，我們可以獲取到不同時間段內(nèi)，不同用戶對租房推薦系統(tǒng)在精準(zhǔn)性、多樣性、新穎性、驚喜度、信任度以及實時性方面的主觀滿意度數(shù)據(jù)；利用這些原始數(shù)據(jù)，我們建立一套推薦系統(tǒng)體驗監(jiān)測日更報表（如下圖），可以在BI看板中實時瀏覽，便于相關(guān)方及時了解當(dāng)前推薦系統(tǒng)的短板及異常情況。

此外，當(dāng)數(shù)值出現(xiàn)異常時，還可以抽取出低分用戶進行專項調(diào)研，挖掘用戶體驗不佳的原因，從而及時反饋給推薦團隊進行優(yōu)化。

用研面面觀 | 「推薦系統(tǒng)」評估指南，準(zhǔn)≠好

以上僅列出部分BI看板數(shù)據(jù)指標(biāo)

四、反思

通過本次調(diào)研，雖然邁出了推薦系統(tǒng)體驗評估的第一步，但依然存在不足之處：

1. 評估顆粒度較粗

本次評估是針對推薦系統(tǒng)整體條目來進行的，雖然在評估維度上劃分了若干子維度，但由于推薦信息展示規(guī)則的復(fù)雜性，很難定位出具體哪些條目存在問題；即使量化了用戶的主觀感受，也是一種籠統(tǒng)性的診斷，對于較明顯的缺陷（例如缺乏推薦理由）尚可探查，但對于涉及算法層面的調(diào)優(yōu)，指導(dǎo)意義則相對較弱。

2. 用戶回憶門檻高

用戶在填答評估問卷時，需要回憶推薦列表中曾經(jīng)出現(xiàn)過的信息條目；但不同用戶的瀏覽習(xí)慣差異較大，有些用戶會逐條仔細瀏覽，有些用戶會跳躍式的瀏覽——這種干擾因素較難在線上進行控制，結(jié)果是用戶填答問卷時，可能會出現(xiàn)對之前瀏覽過的信息無法回憶的情況，進而會影響到最終的評估結(jié)果。

針對該問題，可考慮選擇實時性更高的填答方式，例如，在用戶進入評估頁面后，為用戶實時呈現(xiàn)真實算法展示的信息條目，也可以確保用戶會逐條閱讀推薦信息并進行評估。

用研面面觀 | 「推薦系統(tǒng)」評估指南，準(zhǔn)≠好