淺談評分模型

25 評論 24005 瀏覽 124 收藏 22 分鐘

編輯導(dǎo)語:我們在生活中處處都有需要評分的地方,比如我們點外賣或者去一家餐飲店,就習(xí)慣性會去看看評論如何;本文是作者分享的關(guān)于評分模型在業(yè)務(wù)、系統(tǒng)、公司的意義,以及搭建的方法論,我們一起來學(xué)習(xí)一下。

一、什么是評分模型

在寫這篇文章前,我一直在思考評分模型之于業(yè)務(wù)、系統(tǒng)、公司的意義,如果用一句話描述評分模型,我的定義是——對某一群體事物(評價主體)由定性分析到定量分析的過程。

二、搭建評分模型的意義

評分模型在平臺上應(yīng)用較為廣泛,常見的交易,內(nèi)容、社交、社區(qū)平臺都會廣泛運用評分模型或分層模型(分層模型更多是在評分模型的基礎(chǔ)上進一步歸類得到)。

為什么是平臺?

平臺作為供給方與需求方的連接,在平臺生態(tài)的搭建中,往往通過規(guī)則的制定,激勵、懲罰、約束供給方與需求方,打造正向體驗,促使平臺朝著良性、正向的方向發(fā)展。

在規(guī)則的制定與履行中,往往基于平臺的價值觀去制定規(guī)則,再借由評分模型(體系)進行度量,所以我們也說評分模型是平臺價值觀的體現(xiàn)。

舉個例子
基于場景:某個區(qū)域有100位用戶打車(需求),而司機(供給運力)僅有80個單位,針對此場景大D、小D兩平臺調(diào)度系統(tǒng)邏輯分別為:

大D平臺:認為打車業(yè)務(wù)是需求驅(qū)動型業(yè)務(wù),即平臺的核心在于最短時間內(nèi)滿足所有乘客的出行需求,因此調(diào)度系統(tǒng)會從全局最優(yōu)角度為司機——路線匹配程度進行量化評分,進而依據(jù)分值進行調(diào)度

小D平臺:認為打車業(yè)務(wù)是供給驅(qū)動型業(yè)務(wù),即平臺核心是保障司機端體驗以聚攏更多司機(運力),因此調(diào)度系統(tǒng)從司機體驗最優(yōu)角度為司機——路線匹配程度量化評分,進而依據(jù)分值進行調(diào)度

三、評分模型的基礎(chǔ)結(jié)構(gòu)

評分模型,更準(zhǔn)確的說應(yīng)該是評價模型與我們的生活息息相關(guān),當(dāng)我們對某一事物進行評價時,實際上已完成了評價模型的建立。

例如我們評價一件商品的好壞,一個人工作能力的強弱,一道菜品的優(yōu)劣。

評價模型是我們對某一事物的價值評估,更側(cè)重定性分析;而評分模型,文章開頭我們講過定義:是對某一群體事物由定性分析到定量分析對過程,本質(zhì)上是定量分析。

如何理解兩者的差異,下面一張圖方便大家理解:

剛才我們講評價模型與評分模型的差異,及生活中被各類評價模型裹挾。那么生活中有沒有評分模型?

有一類評分模型我們從小就開始與其打交道,伴隨了我們的成長 —— 考試,考試的本質(zhì)是對學(xué)生的學(xué)習(xí)情況定量分析的過程。

現(xiàn)在我們就由考試講起,聊一聊評分模型的組成。

考試作為評分模型,它的結(jié)構(gòu)是怎樣的呢?讓我們先回想一下考試的幾個組成要素:

  • 學(xué)生
  • 試卷
  • 老師

對上述三個對象在評分模型中的定位進行抽象:

  • 學(xué)生——被評價者:即評價模型所研究對象
  • 試卷——綜合評價模型
  • 老師——評價標(biāo)準(zhǔn)制定者

我們可以看到,考試的本質(zhì)是評價標(biāo)準(zhǔn)制定者通過模型的建立對被評價者某種能力/特征進行量化評分的過程。

這個結(jié)構(gòu)簡單理解就是:被評價者特征信息的輸入通過評價模型進行量化,完成結(jié)果分值的輸出。

那么模型本身的內(nèi)在構(gòu)造又是怎樣的呢?;氐娇荚噲鼍?,試卷就是評分模型,試卷中包含了哪些要素?

我們通過得分拆解:分值=題*每題得分。

  • 題的本質(zhì):對被評價者在某方面能力、特征的度量——考核指標(biāo)。
  • 分的本質(zhì):某項能力、特征對整體評價的重要性——權(quán)重。

花了很大篇幅講評分模型的相關(guān)概念,是為了讓大家理解評分模型的基礎(chǔ)原理。

四、指標(biāo):評分模型的基石

1. 指標(biāo)的特性

評價指標(biāo)是反應(yīng)被評價對象在評價體系中影響評價結(jié)果的影響因子。

選擇的指標(biāo)需要滿足幾個基本特性:關(guān)聯(lián)性、普遍性、可度量性

關(guān)聯(lián)性:在選取模型指標(biāo)時常出現(xiàn)以下幾個問題,導(dǎo)致選取指標(biāo)組成的評分模型無法準(zhǔn)確表達評分模型目標(biāo)及意義。

  • 選取指標(biāo)不全,片面表達
  • 選取指標(biāo)不合理
  • 選取指標(biāo)重復(fù)

如場景:在制定商家服務(wù)評分體系的時候,主要考核衡量商家對用戶服務(wù)的質(zhì)量,以下哪些指標(biāo)可以運用于商家服務(wù)評分體系,體現(xiàn)商家服務(wù)質(zhì)量:

  • 銷量
  • 評價數(shù)
  • 30s應(yīng)答率
  • 退貨率

各位可以思考下(一分鐘思考時間)~

答案是僅30s應(yīng)答率可納入商家服務(wù)質(zhì)量指標(biāo)體系。

我在線下跟朋友交流此問題時,鮮有人能準(zhǔn)確選出答案,甚至到商家管理業(yè)務(wù)同學(xué)這里也栽了跟頭;這個問題在未明確目標(biāo)時,我們?nèi)菀讓N量,評價數(shù)、退貨率這些指標(biāo)引入評價模型。

從主觀感知上來看,我們天然認為銷量高的商家比銷量低的商家服務(wù)質(zhì)量好;評價越多的商品,店鋪服務(wù)質(zhì)量會越好;退貨率越高的店鋪,服務(wù)質(zhì)量不好,從平臺大盤數(shù)據(jù)看整個商家體系往往也是此趨勢。

但具體到個例上看確是如此么?

  • 銷量高、評價數(shù)多的商家普遍比銷量低評價數(shù)少的商家服務(wù)好,但新商家服務(wù)質(zhì)量不一定比老商家差,小眾品類商家服務(wù)質(zhì)量不一定比大品類商家差;
  • 退貨率低的商家普遍比退貨率高的商家服務(wù)質(zhì)量好,但有些品類天然退貨率高,如服飾鞋帽品類天然比食品零食品類退貨率高。
  • 退貨也不一定是商家服務(wù)質(zhì)量造成的退貨,可能存在用戶個人原因,故若要反應(yīng)商家服務(wù)質(zhì)量,也品質(zhì)退貨率會更準(zhǔn)確,類似此類例子還有很多。

商家對用戶提供的服務(wù)質(zhì)量確實會影響銷量、評價數(shù)、退貨率等指標(biāo),但這是一個逆命題。

上述幾個指標(biāo)均是結(jié)果型指標(biāo),代表的場景是:商戶對用戶提供了良好的服務(wù)質(zhì)量,會影響上述指標(biāo)的結(jié)果。

我們的模型要探究的是哪些指標(biāo)對商家服務(wù)質(zhì)量結(jié)果產(chǎn)生了影響,而不是商家服務(wù)質(zhì)量會對哪些指標(biāo)產(chǎn)生影響;在此語境下,我們更應(yīng)關(guān)注過程型指標(biāo)。

但這并不代表結(jié)果型指標(biāo)不可用于評分模型,結(jié)果型指標(biāo)運用于評分模型中有兩個天然的劣勢:

  • 滯后性,從評價主體的行為到結(jié)果的輸出存在時間差;
  • 多因素干擾,實際業(yè)務(wù)場景下,某個結(jié)果型指標(biāo)往往被多因素共同影響,存在部分因素不是評分模型研究范圍。

若實際業(yè)務(wù)過程中能接受滯后性,或者能排除多因素干擾,那么結(jié)果型指標(biāo)同樣可作用于評分模型

可度量性:這個就相對易理解了,文章開頭我們定義了評分模型的概念:本質(zhì)上是定性分析到定量分析的過程——這就要求選取的指標(biāo)可量化。

普遍性:評分模型在完成評價主體的確定,對模型指標(biāo)選擇中,應(yīng)盡量選擇評價主體都具備的能力/特征作為考核指標(biāo),以減少統(tǒng)計的不公平性,避免模型計算過程中的復(fù)雜性。

2. 指標(biāo)的選擇——GSM模型

合理的指標(biāo)需要滿足什么基礎(chǔ)特征,我們現(xiàn)在知道了。

但就像明白了很多做人道理卻依舊過不好此生,很多人會感覺指標(biāo)該滿足關(guān)聯(lián)性、普遍性、可度量性,我知道了,但合理的指標(biāo)如何選取呢,還是不知道。

這里面其實有一個邏輯定式在里面,我們說的指標(biāo)滿足各種特性,其實是對結(jié)果的一種驗證,缺少的是對實現(xiàn)路徑的認知。

這里我提供一個路徑,供大家參考:拆分目標(biāo)-歸納表現(xiàn)型-選取指標(biāo)——GSM模型。

GSM模型:目標(biāo)(Goal)→信號(Signal)→指標(biāo)(Metric)是谷歌用戶體驗團隊提出的一種指標(biāo)體系搭建方法,其核心思想:通過明確目標(biāo),歸納測量主體表現(xiàn)型,找出關(guān)鍵指標(biāo)。

目標(biāo)確立(Goal):

  • 明確業(yè)務(wù)目標(biāo)、系統(tǒng)目標(biāo)等;
  • 根據(jù)核心(主)目標(biāo)做目標(biāo)拆解;

推導(dǎo)信號和現(xiàn)象(Signal):

  • 目標(biāo)達成或未達成的表現(xiàn)型是怎樣;
  • 什么行為指示了目標(biāo)達成/未達成;
  • 很多時候負向信號/表現(xiàn)型比正向信號/表現(xiàn)型更容易識別;

選取指標(biāo)(Metric):

  • 目標(biāo)達成/未達成的表現(xiàn)通過哪些數(shù)據(jù)指標(biāo)量化;
  • 考慮每個數(shù)據(jù)指標(biāo)對推導(dǎo)信號/現(xiàn)象的描述程度;

3. 指標(biāo)的正向化

選擇的指標(biāo)從評判標(biāo)準(zhǔn)來將會存在以下幾種類型:

  • 正向指標(biāo)——越大越好;
  • 逆向指標(biāo)——越小越好;
  • 中間型指標(biāo)——越趨于某個值越好;
  • 區(qū)間型指標(biāo)——越靠近某一區(qū)間;

為了便于后續(xù)計算與分析,我們通常將各類型指標(biāo)轉(zhuǎn)化為正向指標(biāo)。

逆向指標(biāo)正向化:

yi=max-xi 或 yi=1/xi

中間型指標(biāo)正向化:

其中Xbest為中間最優(yōu)值。

區(qū)間型指標(biāo)正向化:

4. 指標(biāo)的無量綱化

無量綱——聽起來有點晦澀。

無量綱是物理學(xué)延伸出的概念,指在便于對物理常量進行比較、分析,不同常量(重量、長度、時間、體積、溫度等)之間單位是不一樣,為了消除單位的影響需要進行的去量綱化。

同理,不同指標(biāo)之間由于存在量綱不同致其不具可比性,亦需將指標(biāo)進行無量綱化,消除量綱影響將指標(biāo)實際值轉(zhuǎn)化為評價值,大家可以簡單理解為去單位化。

目前最普遍使用的無量綱化方法是標(biāo)準(zhǔn)化法,標(biāo)準(zhǔn)化法即令:

其中x拔和σj分別是指標(biāo)xj的均值和標(biāo)準(zhǔn)差。

五、權(quán)重

1. 權(quán)重的內(nèi)涵

前面我講過評分模型是平臺價值觀的體現(xiàn),這個價值觀很大一部分由指標(biāo)的選擇與權(quán)重的定義承載。

不同平臺在定義指標(biāo)權(quán)重時會存在較大差異,可以簡單理解為不同平臺因產(chǎn)品形態(tài)/產(chǎn)品定位/目標(biāo)用戶/使用場景存在差異,導(dǎo)致平臺在評價一項事物時會有不同的標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)我們可以抽象為權(quán)重。

權(quán)重的大小反映了對于目標(biāo)結(jié)果來說,評價指標(biāo)的重要程度。

這個重要程度一般從兩方面衡量:

  • 指標(biāo)包含評價主體信息量的多少,包含信息量越大,權(quán)重越大;
  • 指標(biāo)對評價主體的區(qū)分度,評價指標(biāo)區(qū)別被評價對象的能力越大,則權(quán)重越大

2. 權(quán)重的計算

我們知道,價值觀具有極強主觀性,同樣,平臺在指標(biāo)權(quán)重的定義上也存在極強的主觀性。

我目前了解到各大平臺在定義各類評分模型的指標(biāo)權(quán)重時,往往用主觀賦權(quán)法較多:

主觀賦權(quán)法:常用的主觀賦權(quán)有專家定權(quán)法、層次分析法,該類方法主觀性都較強;

  • 專家定權(quán)法:專家定權(quán)的本質(zhì)是由業(yè)內(nèi)/領(lǐng)域權(quán)威人士直接定義各指標(biāo)權(quán)重;
  • 層次分析法:層次分析法雖屬于主觀定權(quán),但也存在一定的科學(xué)性,旨在通過指標(biāo)量量對比,量化權(quán)重,主觀定權(quán)下帶有一定的客觀計算規(guī)則。

其計算思路如下:

1)構(gòu)造判斷矩陣

判斷矩陣含義:建立指標(biāo)之間兩兩比較的影響程度的矩陣。例如對指標(biāo)B1;B2;B3;B4;B5定權(quán),構(gòu)造判斷矩陣為:

2)建立指標(biāo)度量標(biāo)度

其中aij表示第i個指標(biāo)與第j個指標(biāo)的比較度量,用如下標(biāo)度表示:

3)檢驗判斷矩陣的合理性

判斷矩陣構(gòu)建后,需要進行矩陣一致性校驗,何為一致性校驗,即在比較時是否表達一致,例如:A>B,B>C,那么A必然大于C,這樣檢驗方式稱為一致性檢驗。

一致性檢驗是通過計算一致性比例CR得來:

中CI表示一致性指標(biāo),其公式為:

n表示判斷矩陣中指標(biāo)的個數(shù),λmax?表示判斷矩陣的最大特征值。

RI表示隨機一致性指標(biāo),可查表獲得,如下表所示:

當(dāng)CR<0.1時,則表示一致性檢驗通過,判斷矩陣構(gòu)造合理,CI 越大,判斷矩陣的不一致性程度越嚴(yán)重。

4)定權(quán)

客觀賦權(quán)法

這里僅介紹下常用的客觀賦權(quán)——熵值法。

什么是熵?

物理學(xué)對熵的定義是描述體系混亂程度(離散程度)的度量,宇宙是一個熵增的過程,熵增也是世間萬物的運行規(guī)律。

什么是熵值法?

物理規(guī)律下的離散程度我們定義為熵,信息領(lǐng)域的信息不確定度被定義為信息熵,熵值法是對信息熵的計算,用來判斷某個指標(biāo)的離散程度。

在權(quán)重的內(nèi)涵中我們講到衡量權(quán)重的標(biāo)準(zhǔn)之一:指標(biāo)對評價主體的區(qū)分度,評價指標(biāo)區(qū)別被評價對象的能力越大,則權(quán)重越大。

熵值法正是基于此思想而建立,是泯滅指標(biāo)特性的數(shù)據(jù)分析,不對指標(biāo)實際含義進行解析和解釋,通過對數(shù)據(jù)的離散程度(不確定度)進行對比而推算權(quán)重。

例如在商家服務(wù)質(zhì)量評分模型建立過程中,各商家在指標(biāo)A上的數(shù)據(jù)離散程度非常小,如果我們賦予該指標(biāo)較大的權(quán)重就會出現(xiàn)各商家得分相近,難以區(qū)分優(yōu)劣。

計算方法如下,較為晦澀,感興趣的同學(xué)可以百科自行學(xué)習(xí),再此不多贅述,以下參考資料來源百度百科:

上述指標(biāo)權(quán)重的定義更多是在講“術(shù)”的方面,即如何科學(xué)定義權(quán)重;但我們要明白的是權(quán)重不是一成不變的,評分模型運行后我們往往會動態(tài)定義權(quán)重,觀察在不同權(quán)重組合影響下(如各類AB實驗),對用戶體驗/平臺效益/系統(tǒng)效能等方面的收益進行量化,以期尋找一個最優(yōu)組合;甚至在平臺發(fā)展的不同階段,各指標(biāo)權(quán)重也會跟著平臺戰(zhàn)略演進而調(diào)整。

六、分值的選擇

  • 5分制:具備分層屬性:極差、較差、一般、較好、極好,強化等級/層級,弱化同級差異,重定性描述,直觀,易于交互,閱讀性較強,常用于C端展示;
  • 百分制:強化排序/排名 重比較,重定量描述,常用于內(nèi)部排序、排名使用;
  • 10分制:歸屬定性描述還是定量描述,我的理解介于兩者之間。

介紹至此,你會想評分模型就是這樣?如果是狹義上的評分模型,我認為是的,但是至此該評分模型都不具備商業(yè)價值。

狹義的評分模型僅是作為衡量尺度的工具,文章開頭我們講了,評分模型是平臺價值觀的體現(xiàn);這個價值觀不止體現(xiàn)在指標(biāo)的選擇、權(quán)重的定義,還體現(xiàn)在蛋糕(權(quán)益)的分配。

任何平臺的資源都是有限的,如何攜帶有限資源在企業(yè)發(fā)展這個無限游戲中長久玩下去,是每一個平臺都要思考的問題;而評分模型的建立正是期望通過一系列量化,提升資源的利用效率。

所以我們也定義權(quán)益分配是評分模型中的一部分,如下圖:

至此,我本次的分享告一段落了。

本文用“淺談”旨在表達評分模型搭建的方法論遠不止于此,往后還可延展出很多內(nèi)容,如評分模型的ABtest、通用評分模型系統(tǒng)的搭建等等,有機會再分享。

 

本文由 @阿鐵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 厲害了,學(xué)到了~

    來自上海 回復(fù)
  2. 大佬,你好厲害哦

    來自江蘇 回復(fù)
  3. 求后續(xù)內(nèi)容更新

    來自上海 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  4. 哇哦,學(xué)習(xí)了,還可以在哪里看到大佬的分享資料哦,或者會考慮繼續(xù)更新嘛~~

    來自北京 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  5. 想要請教一下,指標(biāo)選取好了,如果將指標(biāo)轉(zhuǎn)化為分值呢?可以展開講講么?

    來自上海 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
    2. 您目前是怎么處理“將指標(biāo)轉(zhuǎn)化為分值”這個問題的呢

      來自北京 回復(fù)
  6. 學(xué)習(xí)了!想問有沒有公眾號,想關(guān)注一波

    來自上海 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  7. 學(xué)生 考試 那里講的很好 ,剛好要做個評分系統(tǒng)

    來自廣東 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  8. 不明覺厲

    來自浙江 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  9. 鐵哥這邏輯點贊

    回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  10. 看了作者其他文章,都干貨滿滿,有思想的產(chǎn)品經(jīng)理

    回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  11. 已關(guān)注,期待大神的更多分享

    來自北京 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  12. 老鐵666

    來自北京 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)
  13. 老鐵,講的太好了,受教了

    來自香港 回復(fù)
    1. 帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204

      來自江蘇 回復(fù)