數(shù)據(jù)把戲:為什么總有乙方號稱他的模型效果達(dá)到 0.6?

0 評論 2847 瀏覽 4 收藏 7 分鐘

風(fēng)控是個很專業(yè)的領(lǐng)域,避免不了內(nèi)行忽悠外行的現(xiàn)象。而數(shù)據(jù)把戲(Trick of Data)就是其中常見的一種。如何識別和應(yīng)對呢?

在讀研究生的時候,曾經(jīng)跟師弟們做過一次交流,其中舉到一個例子:

如果因變量是中國的人均GDP,自變量包括你家門口的那棵樹的高度,你用了簡單的模型去擬合,結(jié)果你會得到“你家門口樹的高度,對中國人均GDP有著顯著的促進(jìn)關(guān)系。”這樣啼笑皆非的結(jié)論。

為什么會這樣?

主要是因?yàn)槲覀冞^多的重視了變量之間數(shù)量上的關(guān)系,而忽略了變量之間的經(jīng)濟(jì)學(xué)聯(lián)系,缺乏了經(jīng)濟(jì)學(xué)理論的思考才會這樣。

這樣的結(jié)論就是一種數(shù)據(jù)把戲(Trick of Data)。

工作之后,發(fā)現(xiàn)也有很多需要模型的地方,而跟很多風(fēng)控乙方溝通發(fā)現(xiàn)很多乙方都會用種種Trick of Data?來忽悠并不是專業(yè)做模型的業(yè)務(wù)人員,所以從今天開始會更新幾篇關(guān)于這種數(shù)據(jù)把戲的文章,各位在做業(yè)務(wù)交流的時候可以避免類似的坑。

EP01?為什么總有乙方號稱他的模型效果達(dá)到0.6?

我相信做風(fēng)控策略的小伙伴在與風(fēng)控乙方接觸的時候,總會有那么幾個乙方會去推銷自己的某個數(shù)據(jù)或者模型分,而模型的區(qū)分效果張口就是0.5甚至0.6,回去一查,哎喲,這是個很好的模型啊,趕緊簽商務(wù)合同接進(jìn)來試試,結(jié)果發(fā)現(xiàn)差強(qiáng)人意?

這個時候乙方的銷售會說一定是你們的業(yè)務(wù)跟模型樣本不太匹配,要不我們再聯(lián)合建模下?

你不信邪,自己開始做模型,結(jié)果怎么都達(dá)不到人家的精度,你是不是開始郁悶:

為什么乙方的模型能達(dá)到這么高的k-s,你卻不行?

首先,什么是風(fēng)控模型中的KS值?

KS用于模型風(fēng)險(xiǎn)區(qū)分能力進(jìn)行評估:指標(biāo)衡量的是好壞樣本累計(jì)分部之間的差值。

KS的計(jì)算步驟如下:

1.?計(jì)算每個評分區(qū)間的好壞賬戶數(shù)。

2.?計(jì)算每個評分區(qū)間的累計(jì)好賬戶數(shù)占總好賬戶數(shù)比率(good%)和累計(jì)壞賬戶數(shù)占總壞賬戶數(shù)比率(bad%)。

3.?計(jì)算每個評分區(qū)間累計(jì)壞賬戶占比與累計(jì)好賬戶占比差的絕對值(累計(jì)good%-累計(jì)bad%),然后對這些絕對值取最大值即得此評分卡的K-S值。

所以確實(shí)是這樣:

好壞樣本累計(jì)差異越大,KS指標(biāo)越大,那么模型的風(fēng)險(xiǎn)區(qū)分能力越強(qiáng)。

因?yàn)镵-S值確實(shí)是代表著很強(qiáng)大的區(qū)分力,所以很多甲方的業(yè)務(wù)同伴就會被忽悠,那在排除乙方銷售在數(shù)據(jù)造假的情況下,為什么有的乙方確實(shí)就能宣稱自己模型K-S值高達(dá)0.6呢?這主要有以下幾種可能:

1. 建模樣本壞樣本比例過高

如果建模過程中壞樣本比例過高,那么是可以有機(jī)會達(dá)到這個值的。

舉例如下:

(1)如果建模樣本中好壞樣本比例good/bad=50/50,壞賬率為50%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識別80%的壞樣本;那么使用模型之后的結(jié)果為good/bad=40/10,壞賬率變?yōu)?0%;這個我們做風(fēng)控策略的人都知道在使用一些較好的變量的情況下是有可能的,因?yàn)楫吘棺龅?0%的壞賬已經(jīng)是夠爛的了。

(2)如果建模樣本中好壞樣本比例good/bad=80/20,壞賬率為20%;k-s值0.6指的是如果在誤殺20%好用戶的情況下可以識別80%的壞樣本;那么使用模型之后的結(jié)果為good/bad=64/4,壞賬率變?yōu)?.88%,其實(shí)我們知道這個一個模型是很難做到。

通過上述這個例子我們知道,不同的樣本比例的情況下K-S值提升的難度是有很大不同的,不同模型的K-S值比較優(yōu)劣前提是要基于建模樣本比例類似,否則不具有橫向比較性。

2. 樣本滯后性

乙方一般選用的樣本都是來自于甲方數(shù)月之前的業(yè)務(wù)數(shù)據(jù),但是選用變量的時候存在著滯后性,而這種滯后性會導(dǎo)致變量偏差,比如最簡單的芝麻信用分,在3個月前進(jìn)行業(yè)務(wù)申請的時候是680,但是此時該用戶的芝麻信用分因?yàn)槎啻斡馄谝呀?jīng)降到550了,所以在建模的時候有很多模型方都沒有考慮到這種變量時滯性,尤其是重要變量的時滯性,導(dǎo)致模型能夠得到一個超高的k-s。

3. 模型過擬合

這個我相信專業(yè)的建模人員都不太會去犯這樣的錯誤,但是不可否認(rèn)還是有很多良莠不齊的乙方用不懂業(yè)務(wù)的純建模人員,在這樣的過程中會犯類似的錯誤,尤其是深度神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林這樣的算法,刻意的調(diào)參有可能達(dá)到過高的k-s值,這才是真正的數(shù)據(jù)把戲。

模型的k-s值是一個很好的體現(xiàn)模型效果的變量,但是一定要注意了,不要被這樣的數(shù)據(jù)把戲給蒙蔽了,業(yè)務(wù)人員還是要懂一點(diǎn)模型才不至于被忽喲,當(dāng)然風(fēng)控的建模人員也要懂一點(diǎn)業(yè)務(wù)才行。

 

作者:獨(dú)孤qiu敗,微信公眾號:互聯(lián)網(wǎng)風(fēng)控那些事兒(anti_fraud_share),互聯(lián)網(wǎng)行業(yè)風(fēng)控產(chǎn)品經(jīng)理,定期分享互聯(lián)網(wǎng)風(fēng)控相關(guān)業(yè)界動態(tài)、系統(tǒng)設(shè)計(jì)方案、模型算法。

本文由 @獨(dú)孤qiu敗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!