評分卡都看不懂,怎么能說自己是做風控的?

3 評論 36600 瀏覽 160 收藏 19 分鐘

隨著互聯網在傳統金融和電子商務領域的不斷滲透,風控+互聯網的融合也對傳統的風控提出了新的要求和挑戰(zhàn)。以評分卡為例,互聯網形態(tài)下的評分卡需要面臨更多維數據、更實時數據、更異常數據的挑戰(zhàn)。因此,懂得互聯網業(yè)務下的風控評分卡已經成為互聯網風控從業(yè)人員的新要求。

在之前的文章中,有好幾位業(yè)內朋友溝通說要有一篇關于風控評分卡的教程類的文章,于是趁著周末趕緊完成了這篇似是而非的working paper。

一、引言

這兩年隨著互聯網電商業(yè)務和互聯網金融業(yè)務的興起,原本著力于銀行、證券、信托等傳統金融領域的風控職能的HC,在這兩大塊也越來越多,而互聯網自身獨特屬性的加入又給這個已經存在了近一百年的崗位賦予了新的外延與生命。

無論是風控職能中的什么崗位,產品、策略、數據分析、模型等等,最終都是要跟業(yè)務掛鉤,而孕育風控崗位的金融業(yè)務又是一個天生以數據驅動的行業(yè),這也就決定了風控天生的“數字”屬性。

這個屬性無論是在傳統金融領域、新興的互聯網金融乃至更為廣泛的電商領域,都無法磨滅其數學的印跡。

“數據驅動業(yè)務”是風控的核心,無論是金融風控還是電商風控!數學是定量解決復雜問題最有效的工具,在做風控的過程中你會發(fā)現你遺失多年的概率論、矩陣都開始有了新的用武之地。

在當前的互聯網環(huán)境下,互聯網風控已經成為了一項數學、金融學、信息安全、管理科學、行為心理學等多學科交叉的復雜業(yè)務,以定量/定性分析的思維,使用傳統的經濟學分析范式:

  • 在橫向時間線上需要做到預知風險、監(jiān)控風險和處置風險;
  • 在縱向流程線上做到發(fā)現問題、分析問題和解決問題。

而作為風控最重要的工具之一“評分卡”自然而然就是這種套路的產物,所以作為風控從業(yè)者,看懂評分卡已經成為了風控從業(yè)人員的基本素質之一。

本文以經典的邏輯回歸模型為主,完成一套標準評分卡構建。

二、樣本準備與數據處理

本文所使用數據來源于某平臺某年度數十萬信貸樣本數據,為保證業(yè)務隱私業(yè)務指標與關鍵變量已做脫敏處理,僅用于展示評分卡構建過程。

1. 樣本選取

選取一定時間周期內該平臺上的信貸樣本數據(以人為維度),按照會員號尾號(0-9)切分的方式做隨機樣本集,最終選取訓練集17萬,測試集11萬,驗證集11萬。

為了更好表述樣本特征,其中以逾期超過X天為bad樣本(label為1),逾期小于y天為good樣本(lable為0),中間模糊樣本暫不進入模型訓練。

具體以0-1樣本的劃分標準以實際業(yè)務為準,信貸業(yè)務中重點還是看貸后的遷移情況。

2. 變量選取

基于選中的數十萬樣本,結合業(yè)務的經驗,選擇數百描述性變量,并對變量做進一步衍生工作。

基于不同的業(yè)務形式有不同的變量選擇,每一個模型會有不同的樣式,具體需要結合對業(yè)務的理解進行模型構建。此處讀者可針對性的學習“特征選擇”相關知識。

以下為模型選擇的一小部分變量截圖,部分敏感變量做脫敏處理:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

3. 數據處理

數據處理是模型構建之前最核心的也是最費工時的步驟,需要數據處理人員對于數據的來源、特點、字段本質有著較為深入的理解,才能有效處理好數據,失去了意義的數據僅僅是數字而已

3.1 異常數據處理

異常數據指的是因為多種不可預知的原因(數據原因、樣本原因、技術原因、歷史原因)導致的不能建模數據,常見的主要指的是缺失值和極端值。

3.1.1缺失值處理

這種情況在現實問題中非常普遍,尤其線上征信數據因為征信渠道覆蓋不全、超時、前期未取數等多原因經常會出現大批量的數據確實問題,這會導致一些不能處理缺失值的分析方法無法應用。

因此,在評分卡模型開發(fā)的第一步我們就要進行缺失值處理。缺失值處理的方法,包括如下幾種:直接刪除含有缺失值的樣本;根據樣本之間的相似性填補缺失值;根據變量之間的相關關系填補缺失值。

3.1.2極端值處理

缺失值處理完畢后,我們還需要進行異常值處理。異常值是指明顯偏離大多數抽樣數據的數值,比如個人客戶的年齡為0時,通常認為該值為異常值。找出樣本總體中的異常值,通常采用離群值檢測的方法。

3.2 探索性分析、變量處理和選擇

3.2.1 探索性分析

探索性分析有助于幫助我們對數據結構有較為直觀的認知,通過對已有的數據(特別是調查或觀察得來的原始數據)在盡量少的先驗假定下進行探索,常用的探索性數據分析方法有:直方圖、散點圖和箱線圖等

3.2.2 變量處理

完成了數據異常處理之后并不是直接可以進模型的,需要對特定變量進行處理,如對定性變量進行量化(如婚姻狀態(tài),并不能簡單的用枚舉值1、2、3、4代替)。我個人常用的方法主要有:

1)變量分箱(binning)是對連續(xù)變量離散化(discretization)的一種稱呼。信用評分卡開發(fā)中一般有常用的等距分段、等深分段、最優(yōu)分段。

如年齡,在外面的業(yè)務場景中年齡越小和年齡越大,違約概率都會偏大,所以這塊需要做好分箱處理

2)WoE分析是對指標分箱、計算各個檔位的WoE值并觀察WoE值隨指標變化的趨勢。在進行分析時,我們需要對各指標從小到大排列,并計算出相應分檔的WoE值。

其中:正向指標越大,WoE值越?。环聪蛑笜嗽酱?,WoE值越大

3.2.3 變量選擇

我們會用經過清洗后的數據看一下變量間的相關性。注意,這里的相關性分析只是初步的檢查,進一步檢查模型的IV(證據權重)作為變量篩選的依據。此處較簡單,在此不贅述。

總之,數據處理的過程是占據整個標準評分卡構建的最大的工作量,整體的目標是:排除異常值對模型訓練的干擾,將所有變量進行量化處理,自變量對因變量有明顯的解釋性,變量之間無明顯相關性。

三、模型構建與評分卡轉換

1. 模型構建

將處理好的變量進入模型,邏輯回歸模型較為簡單,訓練速度也很快,實現邏輯回歸模型的工具也很多,在此不多贅述,讀者可以根據自己的興趣選擇合適的實現方法。

邏輯回歸的表達形式如下:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

p代表一個樣本是bad樣本的概率,P越大bad概率越大,x指的是進入模型的各個變量,β為該變量的系數,通過上述表達式,我們知道如果某個變量的β為正值,那么x越大則p越大,代表這個變量越大越壞。

通過工具,我們可以計算出一組訓練集對應的變量,下為展示截圖:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

2. 評分卡轉換

上為邏輯回歸模型的構建過程,而邏輯回歸模型可以通過以下步驟轉化為評分卡。

由邏輯回歸的基本原理,我們將客戶違約的概率表示為p,則正常的概率為1-p。因此,可以設:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

此時,客戶違約的概率p可表示為:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

根據邏輯回歸計算可得:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

評分卡設定的分值刻度可以通過將分值表示為比率對數的線性表達式來定義,即可表示為下式:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

其中,A和B是常數。式中的負號可以使得違約概率越低,得分越高。通常情況下,這是分值的理想變動方向,即高分值代表低風險,低分值代表高風險。

式中的常數A、B的值可以通過將兩個已知或假設的分值帶入計算得到。通常情況下,需要設定兩個假設:

(1)給某個特定的比率設定特定的預期分值;

(2)確定比率翻番的分數(PDO)

根據以上的分析,我們首先假設比率為x的特定點的分值為P。則比率為2x的點的分值應該為P-PDO。代入式中,可以得到如下兩個等式:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

假設我們期望x=(bad/good)=5%時的分值為50分,PDO為10分(即每增加10分bad/good比例就會縮減一半),代入式中求得:B=14.43,A=6.78,這個時候bad/good=10%時score=40

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

評分卡刻度參數A和B確定以后,就可以計算比率和違約概率,以及對應的分值了。通常將常數A稱為補償,常數B稱為刻度。則評分卡的分值可表達為:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

式中:變量x1…xn是出現在最終模型中的自變量,即為入模指標。由于此時所有變量都用WOE轉換進行了轉換,可以將這些自變量中的每一個都寫(βiωij)δij的形式:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

式中ωij 為第i行第j個變量的WOE,為已知變量;βi為邏輯回歸方程中的系數,為已知變量;δij為二元變量,表示變量i是否取第j個值。上式可重新表示為:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

此式即為最終評分卡公式。如果x1…xn變量取不同行并計算其WOE值,式中表示的標準評分卡格式,基礎分值等于(A?Bβ0);由于分值分配公式中的負號,模型參數β0,β1,…,βn也應該是負值;變量xi的第j行的分值取決于以下三個數值:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

總的來說整體的思想就是根據每個變量的系數進行評分轉換,好的變量我們給與高的評分,壞的變量給與低分或者負分。

本文構建的評分卡如下(本文的odds設為50):

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

從上表來看,評分卡的表達形式是很簡單的,如學歷是碩士加幾分這樣。但是很多人就以為評分卡是拍腦袋出來的,這是個非常錯誤的想法,每一個變量的評分多少都是基于模型的結果,所以在此也給部分風控從業(yè)者小小的提示一下:評分卡是一個科學的度量工具,不是拍腦袋盲人摸象就能出來的,只知其一不知其二是很可怕的事情。

本文樣本中在驗證集上最終構建的評分卡結果表現如下:

【深夜22點半】評分卡都看不懂,怎么能說自己是做風控的?本文手把手教你做標準評分卡

X軸代表不同的評分區(qū)間,柱狀圖代表驗證集下該評分區(qū)間的人數,折線圖代表該評分區(qū)間的bad比例,我們發(fā)現柱狀人數在整體評分區(qū)間下基本呈現正態(tài)分布,整體bad占比隨著評分上升違約率不斷下降,證明這是一個較為行之有效的評分卡,可以利用評分卡的結果做更多的策略應用(為保護業(yè)務數據隱私,已隱藏)。

上述是根據模型訓練出來的結果在驗證集中的表現情況,當有一個新的進件申請時,參考上述評分卡,可以對新進件有一個直觀的評分,并基于模型表現可以大概預計新進件的違約概率,以此在業(yè)務決策中給出決定性的意見。

四、結論與展望

本文以經典的邏輯回歸模型為主,結合實際業(yè)務數據構建一套評分卡模型,以此來幫助更好的理解評分卡模型的構建流程,以期能夠幫助風控從業(yè)者更好的理解評分卡的本質、目的和應用。

更進一步的,我們在實際的風控業(yè)務應用中,評分卡模型的思路除了傳統的申請信用平分之外,已經拓展到更多的業(yè)務場景,關鍵是在于定義好尋求的目標target,如是否團伙、是否羊毛黨、是否DDOS攻擊等等,并結合對目標的理解尋覓適合的變量。

用評分卡這種通用的方法可以解決在風控領域絕大多數拍腦袋的問題,真正的以數據來驅動業(yè)務。當然評分卡的模型可以是多種的,讀者在了解評分卡的本質基礎上可以嘗試做更多試探性的研究。

參考文獻

[1]WoodS, Reynolds J. Leveraging locational insights within retail store development?Assessing the use of location planners’ knowledge in retail marketing[J].Geoforum, 2012, 43(6):1076-1087.

[2]MaioV D, Prodan R, Benedict S, et al. Modelling energy consumption of networktransfers and virtual machine migration [J]. Future Generation ComputerSystems, 2016, 56(C):388-406.

[3]Murthi,B. P S, Steffes. Developing a measure of risk adjusted revenue (RAR) in creditcards;market: Implications for customer relationship management[J]. EuropeanJournal of Operational Research, 2013, 224(2):425-434.

[4]朱衛(wèi)東, 吳鵬. 引入TOPSIS法的風險預警模型能提高模型的預警準確度嗎?——來自我國制造業(yè)上市公司的經驗證據[J]. 中國管理科學, 2015, 23(11):96-104.

[5]丁衛(wèi)東. 信用評分卡在電商小微企業(yè)信貸中的應用[D]. 浙江大學, 2016.

[6]鞠勐. N銀行Y支行個人貸款信用風險管理研究[D]. 南京師范大學, 2015.

 

作者:獨孤qiu敗,微信公眾號:互聯網風控那些事兒(anti_fraud_share),互聯網行業(yè)風控產品經理,定期分享互聯網風控相關業(yè)界動態(tài)、系統設計方案、模型算法。

本文由 @獨孤qiu敗 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載。

題圖來自Unsplash,基于CC0協議

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 大哥 能說一下那個β是怎么算的嗎

    來自湖南 回復
  2. 看了這么多科普文章,感覺就本文屬實是干貨,已收藏~~~

    來自北京 回復
  3. 啊 果然看到了注冊時間這個變量。。

    來自浙江 回復