轉(zhuǎn)型AI產(chǎn)品經(jīng)理(3):模型評(píng)估篇
我們?cè)谟?xùn)練AI模型后,對(duì)于產(chǎn)品經(jīng)理最重要的一件事是評(píng)估模型,今天我們要講下要如何評(píng)估模型。因?yàn)椴煌哪P陀玫降闹笜?biāo)會(huì)有差異,比如回歸模型中會(huì)用到“MAE(平均絕對(duì)誤差)”、“MSE(均方誤差)”等,多分類模型中會(huì)用到“Micro-average(微平均)”、“Macro-average(宏平均)”等,介于篇幅,我們主要講二分類模型中常用的評(píng)估指標(biāo)。
作為機(jī)器學(xué)習(xí)的一種模型,它主要是通過學(xué)習(xí)從輸入數(shù)據(jù)到類別標(biāo)簽之間的映射關(guān)系,以便在給定新的輸入數(shù)據(jù)時(shí)能夠準(zhǔn)確地預(yù)測其所屬的類別,也就是將數(shù)據(jù)集中的樣本分為二個(gè)類別的模型。
常見的二分類模型包括:
- 邏輯回歸:邏輯回歸雖然名字中帶有“回歸”,但實(shí)際上是一種分類算法,主要用于解決二分類問題。它通過sigmoid函數(shù)將線性回歸模型的輸出映射到[0,1]之間,表示樣本屬于某一類別的概率。
- 決策樹:決策樹通過一系列的決策節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行分類。每個(gè)決策節(jié)點(diǎn)基于輸入特征的某個(gè)屬性進(jìn)行劃分,直到達(dá)到葉子節(jié)點(diǎn),即最終的類別標(biāo)簽。
- 隨機(jī)森林:一種集成學(xué)習(xí)方法,通過組合多個(gè)決策樹來進(jìn)行分類。它在訓(xùn)練過程中引入了隨機(jī)性,使得每棵決策樹都略有不同,從而減少過擬合的風(fēng)險(xiǎn)。(過擬合就像是一個(gè)學(xué)生在考試前只記住了特定題目的答案,但是沒有理解背后的概念,所以當(dāng)考試題目稍有不同時(shí)就不知道怎么回答了)
- 支持向量機(jī)(SVM):支持向量機(jī)通過找到能夠最大化類別間間隔的超平面來進(jìn)行分類。它在高維空間中尋找一個(gè)最優(yōu)的分割超平面,使得不同類別的樣本能夠被清晰地分開。
以上只是二分類模型的一部分舉例,實(shí)際還有很多其他的算法,要根據(jù)自身的業(yè)務(wù)場景來選擇合適的分類模型。對(duì)于二分類模型,我們常用的評(píng)價(jià)方法主要有:
一、混淆矩陣
它以矩陣形式展示模型預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的對(duì)應(yīng)關(guān)系?;煜仃嚨男斜硎灸P皖A(yù)測的類別,列表示實(shí)際的類別。通常,混淆矩陣是一個(gè)二維矩陣,但在多分類問題中,可能會(huì)有更多的行和列。
典型的二分類混淆矩陣如下圖:
- TP(True Positive)表示真正例即實(shí)際和預(yù)測都是正的;
- TN(True Negative)表示真負(fù)例即實(shí)際和預(yù)測都是負(fù)的;
- FP(False Positive)表示假正例即預(yù)測是正的,實(shí)際是負(fù)的;
- FN(False Negative)表示假負(fù)例即預(yù)測是負(fù)的,實(shí)際是正的。
Positive表示正例,Negative表示負(fù)例,正例和負(fù)例的定義取決于具體的問題和任務(wù)。
通常情況下,正例表示我們感興趣的事件或目標(biāo)類別,而負(fù)例表示其他類別或不感興趣的事件。比如,在垃圾郵件檢測的問題中,垃圾郵件可以被視為正例,非垃圾郵件則是負(fù)例;而在反欺詐系統(tǒng)中,欺詐交易可能被視為正例,而合法交易則是負(fù)例。
對(duì)于一個(gè)理想的分類器,自然是希望分類器完美地完成了分類任務(wù),沒有任何錯(cuò)誤,但實(shí)際情況是很難達(dá)到完全正確的,所以就需要使用相關(guān)的評(píng)價(jià)指標(biāo),主要包括:
- 準(zhǔn)確率(Accuracy):準(zhǔn)確率表示模型正確預(yù)測的樣本數(shù)占總樣本數(shù)的比例,計(jì)算公式是正確分類的樣本數(shù)與總樣本數(shù)之比,表示為Accuracy=(TP+TN)/總樣本數(shù)。
- 查準(zhǔn)率(Precision):也有叫精準(zhǔn)率,它衡量的是模型預(yù)測為正例的樣本中,真正例的比例,即預(yù)測為正例的樣本中有多少是真正例,表示為Precision=TP/(TP+FP)。
- 召回率(Recall):也有叫查全率,它衡量的是真實(shí)的正例中,模型成功預(yù)測為正例的比例,即真實(shí)的正例中有多少被模型預(yù)測為正例。其計(jì)算公式為:Recall=TP/(TP+FN)
- 特異度(Specificity):特異度衡量的是真實(shí)的負(fù)例中,模型成功預(yù)測為負(fù)例的比例,即真實(shí)的負(fù)例中有多少被模型預(yù)測為負(fù)例,其計(jì)算公式為:Specificity=TN/(TN+FP)
- F1分?jǐn)?shù):查準(zhǔn)率和召回率的調(diào)和平均值,綜合衡量模型的性能。一般情況下查準(zhǔn)率和召回率呈反比關(guān)系,即查準(zhǔn)率高、召回率就低;查準(zhǔn)率低,召回率就高,那么就需要一個(gè)指標(biāo)來綜合評(píng)估模型的查準(zhǔn)率和召回率達(dá)到平衡的程度,可以用F1來衡量,其計(jì)算公式為:F1=2×Precision×Recall/(Precision+Recall),F(xiàn)1分?jǐn)?shù)的取值范圍從0到1,高F1分?jǐn)?shù)意味著模型在保持查準(zhǔn)率和召回率之間保持良好的平衡,0表示模型性能最差,F(xiàn)1分?jǐn)?shù)越大通常表示模型的性能越好,1表示模型性能最佳。
- ROC曲線:ROC 曲線可以幫助我們?cè)诓闇?zhǔn)率和召回率之間做出權(quán)衡。它以真正例率(True Positive Rate,TPR)為縱軸,假正例率(False Positive Rate,F(xiàn)PR)為橫軸,通過改變分類器的決策閾值,繪制出不同閾值下的TPR和FPR,從而形成一個(gè)曲線。曲線越靠近左上角,表示模型的性能越好。
- AUC(ROC曲線下面積):它是ROC曲線下的面積,用于衡量分類模型的整體性能。AUC 的取值范圍在 0 到 1 之間,值越大表示模型性能越好。AUC 值為 0.5 表示模型的預(yù)測效果與隨機(jī)猜測相當(dāng)(即模型沒有區(qū)分能力),AUC>0.5表示模型有一定的區(qū)分能力,當(dāng)AUC 值接近于 1 表示模型具有很好的預(yù)測能力。
這些指標(biāo)各有側(cè)重。
在模型開發(fā)的早期階段,可以使用混淆矩陣來直觀地了解模型的分類表現(xiàn)。準(zhǔn)確率是評(píng)估模型整體性能的常用指標(biāo),它關(guān)注整體預(yù)測的準(zhǔn)確性,但在樣本不平衡的情況下,準(zhǔn)確率可能會(huì)受到影響。
查準(zhǔn)率和召回率則更加注重不同類別的預(yù)測準(zhǔn)確性,可以提供更詳細(xì)的信息,可以根據(jù)具體的應(yīng)用場景、業(yè)務(wù)需求調(diào)整查準(zhǔn)率和召回率的權(quán)重。
在樣本不平衡的情況下,ROC 曲線和 AUC 可以更好地評(píng)估模型的性能??偟膩碚f,模型評(píng)估不僅僅依賴于單一指標(biāo),而要根據(jù)業(yè)務(wù)的特點(diǎn),結(jié)合多個(gè)指標(biāo)進(jìn)行綜合評(píng)價(jià)。
二、KS值
常見于金融風(fēng)控領(lǐng)域,它衡量的是風(fēng)險(xiǎn)區(qū)分能力。KS值越大,表示模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。
KS 值的計(jì)算方法是首先按照模型預(yù)測得分對(duì)樣本進(jìn)行排序,然后計(jì)算累積正例和累積負(fù)例的比例,最后計(jì)算它們之間的最大差值。
在實(shí)際操作中,可以根據(jù) KS 值選擇最佳的預(yù)測閾值,以平衡查準(zhǔn)率和召回率。
三、GINI系數(shù)
不同于經(jīng)濟(jì)學(xué)中的基尼系數(shù)(衡量收入分配或財(cái)富分配不平等程度的統(tǒng)計(jì)指標(biāo)),模型評(píng)估的GINI系數(shù)是一個(gè)用于衡量模型預(yù)測結(jié)果的不平等程度的指標(biāo),表示模型隨機(jī)挑選出正例的概率比隨機(jī)情況下提高了多少的指標(biāo),通常用在信用評(píng)分中比較常見。
GINI系數(shù)的取值范圍從0到1,其中0表示模型完全沒有判別力(即無法區(qū)分正負(fù)樣本),1表示模型具有完美的判別力。
四、IV值
IV值衡量的是變量的預(yù)測能力,它基于變量的分箱計(jì)算每個(gè)分箱中正例和負(fù)例的比例,然后根據(jù)這些比例計(jì)算每個(gè)分箱的信息值,最后將所有分箱的信息值進(jìn)行加權(quán)求和得到 IV 值。
一般來說,IV 值越高,表示變量對(duì)目標(biāo)變量的預(yù)測能力越強(qiáng)。
在金融風(fēng)控領(lǐng)域,KS 值、GINI 系數(shù)和 IV 值是常用的評(píng)估指標(biāo)。在記憶這些指標(biāo)數(shù)值大小代表的好壞時(shí),我們可以看出,除了ROC曲線是“曲線越靠近左上角,表示模型的性能越好”之外,其他的指標(biāo)都是“越大越好”。
此外,除了這些評(píng)估指標(biāo),我們還需要關(guān)注以下一些維度,才能更好地評(píng)估模型。
1)魯棒性(穩(wěn)定性): 它是指一個(gè)模型在面臨內(nèi)部參數(shù)變化、外部環(huán)境擾動(dòng)、輸入數(shù)據(jù)異常時(shí),仍能保持穩(wěn)定性能、正常運(yùn)作的能力。魯棒性較高的模型能夠在面對(duì)未知的數(shù)據(jù)時(shí)保持穩(wěn)定的表現(xiàn),不會(huì)因?yàn)樾〉臄?shù)據(jù)變化而導(dǎo)致性能的大幅度下降。如果模型的其他指標(biāo)都很好,但是一旦數(shù)據(jù)發(fā)生一定程度的變化,模型的預(yù)測能力就大大降低,這種情況則不是我們樂于見到的情況。所以,我們?cè)谠u(píng)估模型好壞或是否可以停止訓(xùn)練時(shí),還需要考慮模型是否能在真實(shí)環(huán)境中可靠地工作,并且能夠有效地應(yīng)對(duì)各種異常情況。
在評(píng)估魯棒性時(shí),通常我們可以采用 “對(duì)抗性測試,即向模型輸入有干擾性的樣本或者gong擊性的數(shù)據(jù)來測試“、”噪聲測試,即向模型輸入具有隨機(jī)噪聲的數(shù)據(jù),觀察模型對(duì)噪聲的敏感程度“,如果模型能夠很好的處理這些異常數(shù)據(jù),則說明模型具有較強(qiáng)的魯棒性。
2)泛化能力:它是指模型在面對(duì)未曾在訓(xùn)練階段遇到過的全新數(shù)據(jù)時(shí),能夠正確預(yù)測其輸出或者分類的能力。
泛化能力反映了模型從已知數(shù)據(jù)中學(xué)習(xí)到的規(guī)律能否有效地應(yīng)用到未知數(shù)據(jù)上。想要泛化能力高,需要在提供訓(xùn)練的數(shù)據(jù)集時(shí)就要開始考量數(shù)據(jù)的覆蓋面,代表性、相關(guān)性,如果一開始訓(xùn)練的數(shù)據(jù)集就有一定的偏重性(又不是與目標(biāo)變量相關(guān)的重要特征),不符合實(shí)際的業(yè)務(wù)場景,那就會(huì)導(dǎo)致模型的過擬合程度較高,從而導(dǎo)致泛化能力差。
在評(píng)估模型的泛化能力時(shí),通常我們可以采用“交叉驗(yàn)證,即通過將數(shù)據(jù)集分成多個(gè)子集,在不同子集上訓(xùn)練和測試模型,從而得到更準(zhǔn)確的泛化性能評(píng)估結(jié)果“,”外部驗(yàn)證,即使用獨(dú)立于訓(xùn)練數(shù)據(jù)的外部數(shù)據(jù)集來驗(yàn)證模型的泛化能力“。
總的來說,決定模型泛化能力的因素是模型的復(fù)雜度、訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量,以及數(shù)據(jù)分布與目標(biāo)變量之間的關(guān)系等。
在訓(xùn)練和評(píng)估模型時(shí),需要綜合考慮這些因素,以確保模型能夠在未見過的數(shù)據(jù)上獲得良好的表現(xiàn)。
3)可解釋性:它指的是模型能夠以易于理解的方式展現(xiàn)其內(nèi)在邏輯、工作原理和決策依據(jù)的能力。可解釋性關(guān)乎模型的透明度和清晰度,讓用戶能夠明白模型為何做出某種預(yù)測或決策,這對(duì)于信任模型以及優(yōu)化模型性能等方面至關(guān)重要。
在可解釋性評(píng)估時(shí),我們可以通過“特征重要性分析,即模型能夠明確指出哪些特征對(duì)預(yù)測結(jié)果的影響大”,“可視化分析,即用可視化的方法來展示模型決策的過程和結(jié)果,使用戶能夠直觀地理解模型的預(yù)測思路或原理”。
在實(shí)際的操作中,模型的可解釋性都相對(duì)來說較弱,但是在B端產(chǎn)品中,可解釋性又是產(chǎn)品經(jīng)理挑戰(zhàn)較大的一點(diǎn),客戶購買你的產(chǎn)品,他們無法感知到你的AI能力,你除了需要介紹你的訓(xùn)練數(shù)據(jù)包含了多大量級(jí)的數(shù)據(jù),訓(xùn)練數(shù)據(jù)來源如何符合他們的業(yè)務(wù)需求之外,他們通常只能得到一個(gè)模型輸出的結(jié)果。至于結(jié)果是怎么來的,他們只能通過你介紹的產(chǎn)品是如何預(yù)測的原理來感知你的AI產(chǎn)品是否滿足他們的需求。
通常,產(chǎn)品經(jīng)理要在這一部分和算法團(tuán)隊(duì)進(jìn)行深度討論,將算法中的原理摸熟后,轉(zhuǎn)化為客戶能夠理解并認(rèn)可的“模型解釋”,對(duì)原理深入淺出的解釋功夫需要練習(xí),可以跟公司內(nèi)部的人員,如銷售、客戶成功部、客服部等先解釋看看,根據(jù)他們不懂的地方再修改。
對(duì)模型的解釋即要容易被理解,又要讓客戶覺得模型的工作原理或思路符合他們的場景需求,這樣才能讓客戶信任你的AI產(chǎn)品能力。
模型的解釋只有便于非技術(shù)人員理解,讓公司內(nèi)部的人員都能準(zhǔn)確表達(dá)出來,才會(huì)在客戶詢問或質(zhì)疑模型的可靠性時(shí)得到滿意的答復(fù),這一點(diǎn)相對(duì)于C端產(chǎn)品來說,會(huì)比較影響客戶的留存率,需要重視。
總的來說,對(duì)于模型的評(píng)估,不是單靠一項(xiàng)指標(biāo)來評(píng)估的,要根據(jù)當(dāng)前業(yè)務(wù)的階段,模型訓(xùn)練的時(shí)長、成本,訓(xùn)練數(shù)據(jù)的收集、更新等綜合來評(píng)估,是一個(gè)找到當(dāng)前最適用的評(píng)估方法的“平衡”過程。關(guān)鍵還是要看業(yè)務(wù)的具體場景是什么,用戶目前最在意的特征、指標(biāo)是什么,最具性價(jià)比的方案等來綜合取舍!
如果你也有模型評(píng)估方面更好的思路,歡迎分享交流!
本文由 @養(yǎng)心進(jìn)行時(shí) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!