淺談評分模型
編輯導(dǎo)語:我們在生活中處處都有需要評分的地方,比如我們點外賣或者去一家餐飲店,就習(xí)慣性會去看看評論如何;本文是作者分享的關(guān)于評分模型在業(yè)務(wù)、系統(tǒng)、公司的意義,以及搭建的方法論,我們一起來學(xué)習(xí)一下。
一、什么是評分模型
在寫這篇文章前,我一直在思考評分模型之于業(yè)務(wù)、系統(tǒng)、公司的意義,如果用一句話描述評分模型,我的定義是——對某一群體事物(評價主體)由定性分析到定量分析的過程。
二、搭建評分模型的意義
評分模型在平臺上應(yīng)用較為廣泛,常見的交易,內(nèi)容、社交、社區(qū)平臺都會廣泛運用評分模型或分層模型(分層模型更多是在評分模型的基礎(chǔ)上進一步歸類得到)。
為什么是平臺?
平臺作為供給方與需求方的連接,在平臺生態(tài)的搭建中,往往通過規(guī)則的制定,激勵、懲罰、約束供給方與需求方,打造正向體驗,促使平臺朝著良性、正向的方向發(fā)展。
在規(guī)則的制定與履行中,往往基于平臺的價值觀去制定規(guī)則,再借由評分模型(體系)進行度量,所以我們也說評分模型是平臺價值觀的體現(xiàn)。
舉個例子
基于場景:某個區(qū)域有100位用戶打車(需求),而司機(供給運力)僅有80個單位,針對此場景大D、小D兩平臺調(diào)度系統(tǒng)邏輯分別為:
大D平臺:認為打車業(yè)務(wù)是需求驅(qū)動型業(yè)務(wù),即平臺的核心在于最短時間內(nèi)滿足所有乘客的出行需求,因此調(diào)度系統(tǒng)會從全局最優(yōu)角度為司機——路線匹配程度進行量化評分,進而依據(jù)分值進行調(diào)度
小D平臺:認為打車業(yè)務(wù)是供給驅(qū)動型業(yè)務(wù),即平臺核心是保障司機端體驗以聚攏更多司機(運力),因此調(diào)度系統(tǒng)從司機體驗最優(yōu)角度為司機——路線匹配程度量化評分,進而依據(jù)分值進行調(diào)度
三、評分模型的基礎(chǔ)結(jié)構(gòu)
評分模型,更準(zhǔn)確的說應(yīng)該是評價模型與我們的生活息息相關(guān),當(dāng)我們對某一事物進行評價時,實際上已完成了評價模型的建立。
例如我們評價一件商品的好壞,一個人工作能力的強弱,一道菜品的優(yōu)劣。
評價模型是我們對某一事物的價值評估,更側(cè)重定性分析;而評分模型,文章開頭我們講過定義:是對某一群體事物由定性分析到定量分析對過程,本質(zhì)上是定量分析。
如何理解兩者的差異,下面一張圖方便大家理解:
剛才我們講評價模型與評分模型的差異,及生活中被各類評價模型裹挾。那么生活中有沒有評分模型?
有一類評分模型我們從小就開始與其打交道,伴隨了我們的成長 —— 考試,考試的本質(zhì)是對學(xué)生的學(xué)習(xí)情況定量分析的過程。
現(xiàn)在我們就由考試講起,聊一聊評分模型的組成。
考試作為評分模型,它的結(jié)構(gòu)是怎樣的呢?讓我們先回想一下考試的幾個組成要素:
- 學(xué)生
- 試卷
- 老師
對上述三個對象在評分模型中的定位進行抽象:
- 學(xué)生——被評價者:即評價模型所研究對象
- 試卷——綜合評價模型
- 老師——評價標(biāo)準(zhǔn)制定者
我們可以看到,考試的本質(zhì)是評價標(biāo)準(zhǔn)制定者通過模型的建立對被評價者某種能力/特征進行量化評分的過程。
這個結(jié)構(gòu)簡單理解就是:被評價者特征信息的輸入通過評價模型進行量化,完成結(jié)果分值的輸出。
那么模型本身的內(nèi)在構(gòu)造又是怎樣的呢?;氐娇荚噲鼍?,試卷就是評分模型,試卷中包含了哪些要素?
我們通過得分拆解:分值=題*每題得分。
- 題的本質(zhì):對被評價者在某方面能力、特征的度量——考核指標(biāo)。
- 分的本質(zhì):某項能力、特征對整體評價的重要性——權(quán)重。
花了很大篇幅講評分模型的相關(guān)概念,是為了讓大家理解評分模型的基礎(chǔ)原理。
四、指標(biāo):評分模型的基石
1. 指標(biāo)的特性
評價指標(biāo)是反應(yīng)被評價對象在評價體系中影響評價結(jié)果的影響因子。
選擇的指標(biāo)需要滿足幾個基本特性:關(guān)聯(lián)性、普遍性、可度量性
關(guān)聯(lián)性:在選取模型指標(biāo)時常出現(xiàn)以下幾個問題,導(dǎo)致選取指標(biāo)組成的評分模型無法準(zhǔn)確表達評分模型目標(biāo)及意義。
- 選取指標(biāo)不全,片面表達
- 選取指標(biāo)不合理
- 選取指標(biāo)重復(fù)
如場景:在制定商家服務(wù)評分體系的時候,主要考核衡量商家對用戶服務(wù)的質(zhì)量,以下哪些指標(biāo)可以運用于商家服務(wù)評分體系,體現(xiàn)商家服務(wù)質(zhì)量:
- 銷量
- 評價數(shù)
- 30s應(yīng)答率
- 退貨率
各位可以思考下(一分鐘思考時間)~
答案是僅30s應(yīng)答率可納入商家服務(wù)質(zhì)量指標(biāo)體系。
我在線下跟朋友交流此問題時,鮮有人能準(zhǔn)確選出答案,甚至到商家管理業(yè)務(wù)同學(xué)這里也栽了跟頭;這個問題在未明確目標(biāo)時,我們?nèi)菀讓N量,評價數(shù)、退貨率這些指標(biāo)引入評價模型。
從主觀感知上來看,我們天然認為銷量高的商家比銷量低的商家服務(wù)質(zhì)量好;評價越多的商品,店鋪服務(wù)質(zhì)量會越好;退貨率越高的店鋪,服務(wù)質(zhì)量不好,從平臺大盤數(shù)據(jù)看整個商家體系往往也是此趨勢。
但具體到個例上看確是如此么?
- 銷量高、評價數(shù)多的商家普遍比銷量低評價數(shù)少的商家服務(wù)好,但新商家服務(wù)質(zhì)量不一定比老商家差,小眾品類商家服務(wù)質(zhì)量不一定比大品類商家差;
- 退貨率低的商家普遍比退貨率高的商家服務(wù)質(zhì)量好,但有些品類天然退貨率高,如服飾鞋帽品類天然比食品零食品類退貨率高。
- 退貨也不一定是商家服務(wù)質(zhì)量造成的退貨,可能存在用戶個人原因,故若要反應(yīng)商家服務(wù)質(zhì)量,也品質(zhì)退貨率會更準(zhǔn)確,類似此類例子還有很多。
商家對用戶提供的服務(wù)質(zhì)量確實會影響銷量、評價數(shù)、退貨率等指標(biāo),但這是一個逆命題。
上述幾個指標(biāo)均是結(jié)果型指標(biāo),代表的場景是:商戶對用戶提供了良好的服務(wù)質(zhì)量,會影響上述指標(biāo)的結(jié)果。
我們的模型要探究的是哪些指標(biāo)對商家服務(wù)質(zhì)量結(jié)果產(chǎn)生了影響,而不是商家服務(wù)質(zhì)量會對哪些指標(biāo)產(chǎn)生影響;在此語境下,我們更應(yīng)關(guān)注過程型指標(biāo)。
但這并不代表結(jié)果型指標(biāo)不可用于評分模型,結(jié)果型指標(biāo)運用于評分模型中有兩個天然的劣勢:
- 滯后性,從評價主體的行為到結(jié)果的輸出存在時間差;
- 多因素干擾,實際業(yè)務(wù)場景下,某個結(jié)果型指標(biāo)往往被多因素共同影響,存在部分因素不是評分模型研究范圍。
若實際業(yè)務(wù)過程中能接受滯后性,或者能排除多因素干擾,那么結(jié)果型指標(biāo)同樣可作用于評分模型
可度量性:這個就相對易理解了,文章開頭我們定義了評分模型的概念:本質(zhì)上是定性分析到定量分析的過程——這就要求選取的指標(biāo)可量化。
普遍性:評分模型在完成評價主體的確定,對模型指標(biāo)選擇中,應(yīng)盡量選擇評價主體都具備的能力/特征作為考核指標(biāo),以減少統(tǒng)計的不公平性,避免模型計算過程中的復(fù)雜性。
2. 指標(biāo)的選擇——GSM模型
合理的指標(biāo)需要滿足什么基礎(chǔ)特征,我們現(xiàn)在知道了。
但就像明白了很多做人道理卻依舊過不好此生,很多人會感覺指標(biāo)該滿足關(guān)聯(lián)性、普遍性、可度量性,我知道了,但合理的指標(biāo)如何選取呢,還是不知道。
這里面其實有一個邏輯定式在里面,我們說的指標(biāo)滿足各種特性,其實是對結(jié)果的一種驗證,缺少的是對實現(xiàn)路徑的認知。
這里我提供一個路徑,供大家參考:拆分目標(biāo)-歸納表現(xiàn)型-選取指標(biāo)——GSM模型。
GSM模型:目標(biāo)(Goal)→信號(Signal)→指標(biāo)(Metric)是谷歌用戶體驗團隊提出的一種指標(biāo)體系搭建方法,其核心思想:通過明確目標(biāo),歸納測量主體表現(xiàn)型,找出關(guān)鍵指標(biāo)。
目標(biāo)確立(Goal):
- 明確業(yè)務(wù)目標(biāo)、系統(tǒng)目標(biāo)等;
- 根據(jù)核心(主)目標(biāo)做目標(biāo)拆解;
推導(dǎo)信號和現(xiàn)象(Signal):
- 目標(biāo)達成或未達成的表現(xiàn)型是怎樣;
- 什么行為指示了目標(biāo)達成/未達成;
- 很多時候負向信號/表現(xiàn)型比正向信號/表現(xiàn)型更容易識別;
選取指標(biāo)(Metric):
- 目標(biāo)達成/未達成的表現(xiàn)通過哪些數(shù)據(jù)指標(biāo)量化;
- 考慮每個數(shù)據(jù)指標(biāo)對推導(dǎo)信號/現(xiàn)象的描述程度;
3. 指標(biāo)的正向化
選擇的指標(biāo)從評判標(biāo)準(zhǔn)來將會存在以下幾種類型:
- 正向指標(biāo)——越大越好;
- 逆向指標(biāo)——越小越好;
- 中間型指標(biāo)——越趨于某個值越好;
- 區(qū)間型指標(biāo)——越靠近某一區(qū)間;
為了便于后續(xù)計算與分析,我們通常將各類型指標(biāo)轉(zhuǎn)化為正向指標(biāo)。
逆向指標(biāo)正向化:
yi=max-xi 或 yi=1/xi
中間型指標(biāo)正向化:
其中Xbest為中間最優(yōu)值。
區(qū)間型指標(biāo)正向化:
4. 指標(biāo)的無量綱化
無量綱——聽起來有點晦澀。
無量綱是物理學(xué)延伸出的概念,指在便于對物理常量進行比較、分析,不同常量(重量、長度、時間、體積、溫度等)之間單位是不一樣,為了消除單位的影響需要進行的去量綱化。
同理,不同指標(biāo)之間由于存在量綱不同致其不具可比性,亦需將指標(biāo)進行無量綱化,消除量綱影響將指標(biāo)實際值轉(zhuǎn)化為評價值,大家可以簡單理解為去單位化。
目前最普遍使用的無量綱化方法是標(biāo)準(zhǔn)化法,標(biāo)準(zhǔn)化法即令:
其中x拔和σj分別是指標(biāo)xj的均值和標(biāo)準(zhǔn)差。
五、權(quán)重
1. 權(quán)重的內(nèi)涵
前面我講過評分模型是平臺價值觀的體現(xiàn),這個價值觀很大一部分由指標(biāo)的選擇與權(quán)重的定義承載。
不同平臺在定義指標(biāo)權(quán)重時會存在較大差異,可以簡單理解為不同平臺因產(chǎn)品形態(tài)/產(chǎn)品定位/目標(biāo)用戶/使用場景存在差異,導(dǎo)致平臺在評價一項事物時會有不同的標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)我們可以抽象為權(quán)重。
權(quán)重的大小反映了對于目標(biāo)結(jié)果來說,評價指標(biāo)的重要程度。
這個重要程度一般從兩方面衡量:
- 指標(biāo)包含評價主體信息量的多少,包含信息量越大,權(quán)重越大;
- 指標(biāo)對評價主體的區(qū)分度,評價指標(biāo)區(qū)別被評價對象的能力越大,則權(quán)重越大
2. 權(quán)重的計算
我們知道,價值觀具有極強主觀性,同樣,平臺在指標(biāo)權(quán)重的定義上也存在極強的主觀性。
我目前了解到各大平臺在定義各類評分模型的指標(biāo)權(quán)重時,往往用主觀賦權(quán)法較多:
主觀賦權(quán)法:常用的主觀賦權(quán)有專家定權(quán)法、層次分析法,該類方法主觀性都較強;
- 專家定權(quán)法:專家定權(quán)的本質(zhì)是由業(yè)內(nèi)/領(lǐng)域權(quán)威人士直接定義各指標(biāo)權(quán)重;
- 層次分析法:層次分析法雖屬于主觀定權(quán),但也存在一定的科學(xué)性,旨在通過指標(biāo)量量對比,量化權(quán)重,主觀定權(quán)下帶有一定的客觀計算規(guī)則。
其計算思路如下:
1)構(gòu)造判斷矩陣
判斷矩陣含義:建立指標(biāo)之間兩兩比較的影響程度的矩陣。例如對指標(biāo)B1;B2;B3;B4;B5定權(quán),構(gòu)造判斷矩陣為:
2)建立指標(biāo)度量標(biāo)度
其中aij表示第i個指標(biāo)與第j個指標(biāo)的比較度量,用如下標(biāo)度表示:
3)檢驗判斷矩陣的合理性
判斷矩陣構(gòu)建后,需要進行矩陣一致性校驗,何為一致性校驗,即在比較時是否表達一致,例如:A>B,B>C,那么A必然大于C,這樣檢驗方式稱為一致性檢驗。
一致性檢驗是通過計算一致性比例CR得來:
中CI表示一致性指標(biāo),其公式為:
n表示判斷矩陣中指標(biāo)的個數(shù),λmax?表示判斷矩陣的最大特征值。
RI表示隨機一致性指標(biāo),可查表獲得,如下表所示:
當(dāng)CR<0.1時,則表示一致性檢驗通過,判斷矩陣構(gòu)造合理,CI 越大,判斷矩陣的不一致性程度越嚴(yán)重。
4)定權(quán)
客觀賦權(quán)法
這里僅介紹下常用的客觀賦權(quán)——熵值法。
什么是熵?
物理學(xué)對熵的定義是描述體系混亂程度(離散程度)的度量,宇宙是一個熵增的過程,熵增也是世間萬物的運行規(guī)律。
什么是熵值法?
物理規(guī)律下的離散程度我們定義為熵,信息領(lǐng)域的信息不確定度被定義為信息熵,熵值法是對信息熵的計算,用來判斷某個指標(biāo)的離散程度。
在權(quán)重的內(nèi)涵中我們講到衡量權(quán)重的標(biāo)準(zhǔn)之一:指標(biāo)對評價主體的區(qū)分度,評價指標(biāo)區(qū)別被評價對象的能力越大,則權(quán)重越大。
熵值法正是基于此思想而建立,是泯滅指標(biāo)特性的數(shù)據(jù)分析,不對指標(biāo)實際含義進行解析和解釋,通過對數(shù)據(jù)的離散程度(不確定度)進行對比而推算權(quán)重。
例如在商家服務(wù)質(zhì)量評分模型建立過程中,各商家在指標(biāo)A上的數(shù)據(jù)離散程度非常小,如果我們賦予該指標(biāo)較大的權(quán)重就會出現(xiàn)各商家得分相近,難以區(qū)分優(yōu)劣。
計算方法如下,較為晦澀,感興趣的同學(xué)可以百科自行學(xué)習(xí),再此不多贅述,以下參考資料來源百度百科:
上述指標(biāo)權(quán)重的定義更多是在講“術(shù)”的方面,即如何科學(xué)定義權(quán)重;但我們要明白的是權(quán)重不是一成不變的,評分模型運行后我們往往會動態(tài)定義權(quán)重,觀察在不同權(quán)重組合影響下(如各類AB實驗),對用戶體驗/平臺效益/系統(tǒng)效能等方面的收益進行量化,以期尋找一個最優(yōu)組合;甚至在平臺發(fā)展的不同階段,各指標(biāo)權(quán)重也會跟著平臺戰(zhàn)略演進而調(diào)整。
六、分值的選擇
- 5分制:具備分層屬性:極差、較差、一般、較好、極好,強化等級/層級,弱化同級差異,重定性描述,直觀,易于交互,閱讀性較強,常用于C端展示;
- 百分制:強化排序/排名 重比較,重定量描述,常用于內(nèi)部排序、排名使用;
- 10分制:歸屬定性描述還是定量描述,我的理解介于兩者之間。
介紹至此,你會想評分模型就是這樣?如果是狹義上的評分模型,我認為是的,但是至此該評分模型都不具備商業(yè)價值。
狹義的評分模型僅是作為衡量尺度的工具,文章開頭我們講了,評分模型是平臺價值觀的體現(xiàn);這個價值觀不止體現(xiàn)在指標(biāo)的選擇、權(quán)重的定義,還體現(xiàn)在蛋糕(權(quán)益)的分配。
任何平臺的資源都是有限的,如何攜帶有限資源在企業(yè)發(fā)展這個無限游戲中長久玩下去,是每一個平臺都要思考的問題;而評分模型的建立正是期望通過一系列量化,提升資源的利用效率。
所以我們也定義權(quán)益分配是評分模型中的一部分,如下圖:
至此,我本次的分享告一段落了。
本文用“淺談”旨在表達評分模型搭建的方法論遠不止于此,往后還可延展出很多內(nèi)容,如評分模型的ABtest、通用評分模型系統(tǒng)的搭建等等,有機會再分享。
本文由 @阿鐵 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議
厲害了,學(xué)到了~
大佬,你好厲害哦
求后續(xù)內(nèi)容更新
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
哇哦,學(xué)習(xí)了,還可以在哪里看到大佬的分享資料哦,或者會考慮繼續(xù)更新嘛~~
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
想要請教一下,指標(biāo)選取好了,如果將指標(biāo)轉(zhuǎn)化為分值呢?可以展開講講么?
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
您目前是怎么處理“將指標(biāo)轉(zhuǎn)化為分值”這個問題的呢
學(xué)習(xí)了!想問有沒有公眾號,想關(guān)注一波
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
學(xué)生 考試 那里講的很好 ,剛好要做個評分系統(tǒng)
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
不明覺厲
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
鐵哥這邏輯點贊
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
看了作者其他文章,都干貨滿滿,有思想的產(chǎn)品經(jīng)理
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
已關(guān)注,期待大神的更多分享
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
老鐵666
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204
老鐵,講的太好了,受教了
帥鍋,你也在研究評分模型么?我們也在籌劃類似產(chǎn)品,我拉一個群,可以一起探討一下么?歡迎入群:QQ290061204