風控中必做的數(shù)據(jù)分析

2 評論 22863 瀏覽 45 收藏 12 分鐘

編輯導語:處于大數(shù)據(jù)時代的我們,離不開數(shù)據(jù)分析,風控行業(yè)也是如此。本文以風控數(shù)據(jù)分析為例,拆解其數(shù)據(jù)分析過程,由此說明,風控中的數(shù)據(jù)分析跟其他的互聯(lián)網(wǎng)業(yè)務是互通的,而數(shù)據(jù)分析技能在任何互聯(lián)網(wǎng)行業(yè)都是通用的。

大數(shù)據(jù)領域就沒有不做數(shù)據(jù)分析的,大數(shù)據(jù)風控也不例外。我的觀點是風控和其他互聯(lián)網(wǎng)業(yè)務都是互通的,本文介紹下風控中必做的數(shù)據(jù)分析,用以說明數(shù)據(jù)分析是一通百通的。

工欲善其事,必先利其器。先說下數(shù)據(jù)分析的工具。分析工具,最通用的包括 Excel、SQL 和 Python。

即使大家是技術(shù)崗位,也沒有必要技能歧視,用 Python 并不會比用 Excel 和 SQL 高級。算法工程師都自嘲 SQL boy。SQL 是數(shù)據(jù)分析師以及算法工程師用的最多的技能。

能不能從海量的業(yè)務數(shù)據(jù)中取出正確的數(shù)據(jù),是解決問題的前提。而 Excel 透視表強大到萬物皆可透視。不夸張地說,我就沒見過透視表解決不了的問題。

數(shù)據(jù)分析平臺,開源的有 metabase,收費的有 tableau,都可以連接數(shù)據(jù)庫實時交互,并提供豐富的智能儀表盤。

個人推薦開源的 BI 工具 Metabase,它具有可視化操作界面的數(shù)據(jù)分析和查詢功能,讓不懂 SQL 的用戶可能夠快速掌握業(yè)務數(shù)據(jù),也支持團隊共享業(yè)務數(shù)據(jù),是一個很不錯的 BI 解決方案。

一、業(yè)務理解

如果一家金融機構(gòu)聘請你給他們的風控業(yè)務做咨詢,你知道怎么辦嗎?

別告訴我,你想硬搬風控建模比賽的那套東西。不要掉價。

解決方案一定是針對當前業(yè)務和用戶客群獨家定制的。你可以嫁接 kaggle 比賽的經(jīng)驗,但要站在巨人的肩膀上。好比你訓練一個人臉識別工具,你不能找到了經(jīng)典的網(wǎng)絡結(jié)果就萬事大吉了,你需要去 fine-tune。

那么怎么理解業(yè)務?

這個問題等同于怎么理解你的客戶。客戶是你業(yè)務唯一重要的資源。Know your customer!

用戶畫像是了解你的客戶的有效方式,常見的用戶畫像包括但不限于年齡、性別、手機歸屬地、學歷、職業(yè)、婚姻狀態(tài)、機型、銀行卡、消費、app 偏好等?;ソ鹩脩暨€有新老戶比例、額度、息費、多頭程度、借款次數(shù)、借款金額、展期次數(shù)、逾期次數(shù)、逾期升期等。

客戶的城市分布就可以通過統(tǒng)計作圖如下,從而對業(yè)務覆蓋范圍有清楚的認識。

客群基礎信息的畫像適合于任何一個互聯(lián)網(wǎng) to C 的業(yè)務場景,可以據(jù)此了解自己的客群分布。如果要拓展新用戶,它就幫你確定了投放渠道和產(chǎn)品定價等。

但要想真正對業(yè)務提供 sense,與業(yè)務直接相關的數(shù)據(jù)是最重要的。上面的新老戶比例、額度息費、多頭、借款次數(shù)與金額、展期次數(shù)、逾期次數(shù)、逾期升期等就是這樣的數(shù)據(jù)。

我們可以圍繞這些數(shù)據(jù)構(gòu)建出對業(yè)務的理解,例如統(tǒng)計出如下數(shù)據(jù)結(jié)果。

需要說明的是,對于業(yè)務的理解,需要分析的絕不止以上內(nèi)容。

通過 KYC,你可以大致知道發(fā)力的方向在哪里,是拓展新戶還是挖掘存戶,是提升風控能力還是優(yōu)化產(chǎn)品設計,等等。

二、漏斗分析

進件漏斗分析可以幫助我們定位到產(chǎn)品設計的薄弱位置,從而針對優(yōu)化。

不失一般性,進件漏斗可以是,點擊->下載->點擊申請->個人信息->運營商認證->人臉識別->規(guī)則通過->模型通過->綁定銀行卡->開始借款—>放款。

在這,申請流程假設為填寫個人信息,再手機號認證,再人臉識別,再進行強規(guī)則審批,再到模型審批,通過之后再綁卡,后進行借款。這套流程設計控制了客戶轉(zhuǎn)化鏈路,審批前除必要的信息外,綁卡操作進行了后置,盡量減少轉(zhuǎn)化損失。

這個漏斗分析很容易就可以計算出來,我們可以區(qū)分關注的渠道,在貸前場景中我們一般很關注不同渠道的轉(zhuǎn)化情況,以便對渠道進行優(yōu)化。轉(zhuǎn)化鏈路還可以往后追加。

你的產(chǎn)品形式也許需要關注的點會和上面有所差異,但思路應該沒有區(qū)別。漏斗轉(zhuǎn)化能幫助你了解到用戶容易在什么環(huán)節(jié)發(fā)生流失。轉(zhuǎn)化流和行業(yè)一般情況做對比,就可以快速了解你的產(chǎn)品設計有沒有大的問題。

不同時期業(yè)務的重心可能不同,需要關注的轉(zhuǎn)化也可能不同。

三、前端分析

前端指的是用戶在申請時就可以統(tǒng)計得到的數(shù)據(jù),例如申請量、通過率、PSI、CSI 和拒絕瀑布流等,漏斗分析一般也是前端分析。

申請流量質(zhì)量的變化,可以關注到天的粒度,甚至可以是小時的粒度。一張折線圖就可以表現(xiàn)出來,不同渠道可以放在同一張圖里方便對比。用戶質(zhì)量可以通過模型分的分布或者查詢的重要變量的分布衡量出來,如多頭、收入等。

PSI是群體穩(wěn)定性指標(Population Stability Index),刻畫了不同期樣本在各分數(shù)段分布的穩(wěn)定性。每個月申請流量的評分分布差異大不大,直接影響了決策結(jié)果的分布。

CSI是特征穩(wěn)定性指標(Characteristic Stability Index),用來衡量特征層面的變化。PSI 對應模型分,CSI 對應特征變量。特征有時候不像模型分能分布地那么開,像性別就只有男、女,如果還有未知,也就三種。

因為模型分是由特征經(jīng)過一套算法流計算出來的,模型分是一系列特征的表現(xiàn)。PSI 異常的話,必然是某個或者某些特征發(fā)生異常,通過 CSI 分析就可以定位到哪些特征出現(xiàn)了問題。后續(xù)就是針對性排除原因。

在申請環(huán)節(jié),拒絕是一個瀑布流的過程。反欺詐拒絕的人,不用往后進入到政策審批環(huán)節(jié),政策拒絕也不用在考慮模型拒不拒絕,因而這個流程可以統(tǒng)計出來,以監(jiān)控拒絕瀑布流的穩(wěn)定性。

四、后端分析

后端指的是用戶在申請時,你無法得知,需要后延一個表現(xiàn)期才能計算得到的數(shù)據(jù),例如逾期率、模型效果等。表現(xiàn)期可長可短,也可以是首逾,取決于具體的業(yè)務目標和數(shù)據(jù)情況。

逾期率,各家定義可能不太一樣,例如當季逾期貸款剩余本金/當季度放款總剩余本金,可以用來從橫向比較一下壞賬的波動。對于模型層面,逾期率往往指的是壞用戶占比,是人數(shù)而非金額的比例。

這個指標計算是需要經(jīng)過一個時間窗口的,今天的用戶會是什么風險,需要以后才能知道。這也就是為什么前端分析很重要了,申請通過用戶的質(zhì)量通過模型分和重要特征分布已經(jīng)進行了一輪刻畫了。當然,這些前端信息并不能完全衡量出后端的風險。

Vintage分析是反映不同賬齡周期用戶的風險情況,直白地說,是各個時間階段(如月份)申請人在往后各個賬齡下有沒有出現(xiàn)過 M1+逾期(或其他)的統(tǒng)計結(jié)果。

vintage 分析把不同期的樣本放在了一起,可以用來觀察不同期客群風險的變化,然后確定是流量本身的變化,還是宏觀形形勢的變化,還是風控策略的變化等等。

另外,vintage 最常見的用途是確定表現(xiàn)期,因為你觀察到了各個賬齡下的風險表現(xiàn),取一個合適的賬齡長度就有據(jù)可循了。

遷徙率滾動率,我都覺得它倆本質(zhì)上并沒有說很么區(qū)別,是反應用戶狀態(tài)變化的比例。遷徙率呢,貸款從某一狀態(tài)進入到下一個狀態(tài),如正常還款到 M1 期還款狀態(tài),M1 變化成 M2 期還款狀態(tài)。

滾動率呢,首逾的用戶有多少會變成逾期 7+,然后有多少會變成 M1+,到 M2+,到 M3+等。逾期狀態(tài)的滾動分析有助于我們確定建模目標。假如逾期 7+的人有很多人還會還,但逾期 30+的人基本就不還款了,那我們就可以以 30+為壞定義。大抵如此。

排序性準確性,用來量化模型效果,主要通過 Lift、Odds、KS、AUC、Gini 等指標進行反映,其中 KS 值應用尤為場景。KS 值的優(yōu)勢在于它反應的就是取最優(yōu)決策點時好壞用戶被拒絕掉的差異,和策略制定是直接相關的,可通過 SQL 和 Excel 計算。

如大家所見,在風控領域所在的數(shù)據(jù)分析,應該和其他互聯(lián)網(wǎng)領域的數(shù)分并無本質(zhì)區(qū)別。

因為風控和其他業(yè)務一樣,本質(zhì)都是用戶生命周期管理?;谙嗤牡讓舆壿?,數(shù)據(jù)分析必然也并無二致。

 

本文由@雷帥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 講的真好,學習了

    回復
  2. ????

    回復