科普帖:懂了這些名詞,你就已經(jīng)是個“風(fēng)控人”了
本文主要是一個科普帖,把當(dāng)前互聯(lián)網(wǎng)風(fēng)控業(yè)務(wù)內(nèi)部各環(huán)節(jié)遇到的一些特定名詞給大家嘗試做一些淺嘗輒止的介紹。
序言篇
風(fēng)控其實是一個很寬泛、很有歷史感的概念,在不同的公司形態(tài)、業(yè)務(wù)職能上都會有風(fēng)控的存在:如并購業(yè)務(wù)中的風(fēng)控、股債匯業(yè)務(wù)中的風(fēng)控、財務(wù)職能中的風(fēng)控、法務(wù)/審計職能中的風(fēng)控。在金融領(lǐng)域,風(fēng)控已經(jīng)有近百年的概念,廣泛應(yīng)用于信用評級、量化投資等領(lǐng)域,也產(chǎn)生了諸多經(jīng)典的風(fēng)控模型,如金融的小伙伴熟知的KMV、creditmetric、Copula函數(shù)等模型。
而在本篇中提及到的風(fēng)控則是一個相對較新的概念,屬于互聯(lián)網(wǎng)大背景下涵蓋網(wǎng)絡(luò)安全、信息安全、統(tǒng)計/機器學(xué)習(xí)等內(nèi)容并結(jié)合企業(yè)自身業(yè)務(wù)發(fā)展衍生出來的一門新興交叉學(xué)科。而在這塊常見的應(yīng)用場景主要包括電商和網(wǎng)絡(luò)信貸場景,這是與之前的風(fēng)控截然不同的地方,也對互聯(lián)網(wǎng)大背景下的風(fēng)控從業(yè)人員有了不一樣的要求。
業(yè)務(wù)篇
本篇會簡要介紹目前在一些名詞概念,這些名詞會是在互聯(lián)網(wǎng)企業(yè)的風(fēng)控業(yè)務(wù)中經(jīng)常遇到的,所有的互聯(lián)網(wǎng)公司應(yīng)該都會遇到下面這些手段的攻擊。因為我本身不是技術(shù)出身,所以在下述的介紹中只能做到淺嘗輒止。
此篇建議風(fēng)控初級運營人員瀏覽。
手機號碼、驗證碼則成為了許多網(wǎng)絡(luò)平臺的“通行證”,為了“迎合”市場的需求, 就有了一整條配合用戶注冊網(wǎng)絡(luò)平臺賬號的“產(chǎn)業(yè)鏈”。
1. 卡商
這條產(chǎn)業(yè)鏈的源頭是卡商,所謂卡商就是手里擁有大量手機號的個人所有者
這些手機號的來源主要有以下幾方面:
(1)物聯(lián)網(wǎng)卡
物聯(lián)卡業(yè)務(wù)是中國移動、中國聯(lián)通、中國電信面向物聯(lián)網(wǎng)用戶提供的采用物聯(lián)網(wǎng)專用的段作為MSISDN的移動通信接入業(yè)務(wù),通過專用網(wǎng)元設(shè)備支持短信等基礎(chǔ)通信服務(wù),并提供通信狀態(tài)管理和通信鑒權(quán)等智能通道服務(wù),默認開通物聯(lián)網(wǎng)專用的短信接入服務(wù)號和物聯(lián)網(wǎng)專用APN。這張卡可以用流量、發(fā)短信、就是不能打電話。物聯(lián)網(wǎng)卡只針對企業(yè)工業(yè)級應(yīng)用,不針對個人市場,如共享單車里面就是用到了這樣的物聯(lián)網(wǎng)卡。
(2)虛擬手機號
即虛擬運營商號段,170/171號段,這塊大家應(yīng)該比較熟悉了,暫不多表。
(3)境外卡
因為越南等國用的信號與我國相同,所以越南這邊的手機卡在我國是可以收到短信的,且因為不需要實名所以需求也較為強烈,筆者曾經(jīng)在某群內(nèi)看到大量售賣境外卡,每張售賣10-15元,每張卡后續(xù)新用戶盈利完全可以cover住成本。
(4)真實注冊的運營商號碼
在部分地區(qū),因為基層運營商有業(yè)務(wù)考核壓力,所以當(dāng)有人愿意大量辦卡的時候其實基層運營商是很愿意配合的。因為管理不規(guī)范這樣的操作風(fēng)險的存在導(dǎo)致大量的真實號碼流入產(chǎn)業(yè)鏈當(dāng)中。
2. 貓池&設(shè)備農(nóng)場
當(dāng)卡商擁有大量的手機號之后,需要大量承載手機號的硬件設(shè)備,于是貓池出現(xiàn)了。
貓池是一種集成了多路短信收發(fā)模塊的高性能工業(yè)級短信貓設(shè)備,支持多路并發(fā)從而可滿足大量短信收發(fā)的應(yīng)用需求。類型按可接入手機卡數(shù)量分為:單口貓池、八口貓池、16口貓池、32口貓池、64口貓池等,隨著2G到4G的過度,現(xiàn)今一般可以插16-128張卡不等,按實用功能分:普通短信貓池、普通聲訊貓池、彩信貓池、GPRS/WAP四合一貓池等 。
而隨著互聯(lián)網(wǎng)網(wǎng)站防御對抗的升級(如語音驗證碼的出現(xiàn)),這種通過貓池來進行批量賬號生成的手法已經(jīng)漸漸遇到了瓶頸,為了更好的服務(wù)好“需求”(除了注冊之外,刷投票、刷流量、刷閱讀量同理),承載的硬件設(shè)備也從貓池升級到了“手機農(nóng)場”。
顧名思義,手機農(nóng)場是用大量的廉價手機組成“設(shè)備池”,并依賴“群控”工具完成批量操作,這就比貓池設(shè)備高級了,隱匿性和真實性更高。
(手機農(nóng)場)
3. 接碼平臺
接碼平臺,或者也可稱之為驗證碼平臺。它類似于手機卡市場的“淘寶”,卡商將自己的卡號放到平臺上售賣,而羊毛黨或者其他有驗證碼需求的人則可以直接在平臺上購買號碼,接收短信,卡商平臺提供軟件支持、業(yè)務(wù)結(jié)算等服務(wù),通過業(yè)務(wù)分成獲利。
(某接碼平臺客戶端)
一張從未做過驗證碼服務(wù)的卡,在平臺上一天的收益大約有15-25元,根據(jù)驗證碼的屬性不同,卡商和平臺的分成比例也不同,語音類驗證碼五五開,短信類驗證碼三七開,卡商占七成。
4. 打碼平臺
而在產(chǎn)業(yè)鏈的主鏈條中,還有一些輔助工具的加入,才能配合該鏈條運轉(zhuǎn),比如打碼平臺就是個很好的例子。在注冊、搶購過程中都會遇到驗證碼的存在,而這個時候打碼平臺就派上用場了。
打碼平臺的本質(zhì)是“人肉打碼”,很多打碼平臺需要跟網(wǎng)賺平臺進行合作,因為網(wǎng)賺平臺的用戶量比較大,這種每天輸入一些驗證碼就能賺錢的平臺是很多用戶比較喜歡的。網(wǎng)賺平臺通過金幣的形式給用戶發(fā)放,金幣累積一定數(shù)量后可進行提現(xiàn)。
在網(wǎng)賺平臺上的傭工可以勾選想要接收的驗證碼復(fù)雜度,有選擇題、填空題、鼠標(biāo)點擊類型等等,每種驗證碼的積分不同,驗證碼難度較高的積分較大些,同時網(wǎng)賺平臺夜間工作給的積分也會多。
(打碼平臺流程圖)
目前隨著人工智能的發(fā)展,圖像識別技術(shù)已經(jīng)越來越精準(zhǔn),很多簡單的字符驗證碼已經(jīng)不能夠有效阻擋機器行為,使用簡單的OCR識別工具即可進行識別,稍微復(fù)雜的可以結(jié)合機器學(xué)習(xí)等進行高準(zhǔn)確率的識別,大大提高了“工作效率”。
5. 偽基站
偽基站設(shè)備是嫌疑人私自組裝生產(chǎn)的一種高科技儀器,主要由主機、筆記本電腦組成,能夠強制連接用戶手機信號,攝取一定半徑范圍內(nèi)的手機信息,可以任意冒用手機或公用服務(wù)號碼強行向用戶手機發(fā)送短信。
偽基站的主要特點,是可以隨意更改發(fā)送的號碼,可以選擇尾號較好的號碼,還可以使用尾數(shù)為10086或95588等號碼,使手機用戶誤以為真的是移動公司或工商銀行發(fā)送的短信。利用偽基站設(shè)備發(fā)送帶有木馬鏈接的短信、利用木馬盜取公民重要信息(如銀行卡信息、短信驗證碼)已經(jīng)成為非常普遍的一種犯罪方式。
《中華人民共和國刑法修正案(九)》規(guī)定:
“違反國家規(guī)定,擅自設(shè)置、使用無線電臺(站),或者擅自使用無線電頻率,干擾無線電通訊秩序,情節(jié)嚴重的,處三年以下有期徒刑、拘役或者管制,并處或者單處罰金;情節(jié)特別嚴重的,處三年以上七年以下有期徒刑,并處罰金?!?/p>
6. 短信嗅探
GSM 協(xié)議中2G 網(wǎng)絡(luò)架構(gòu)是開源的,它本身傳輸數(shù)據(jù)時也沒有加密,這就導(dǎo)致短信內(nèi)容是明文傳輸?shù)?,這就給不法分子提供了可乘之機詐騙者可以利用GSM 2G網(wǎng)絡(luò)的設(shè)計缺陷,在不接觸目標(biāo)手機的情況下,獲得目標(biāo)手機所接收到的驗證短信,盜取用戶支付寶、微信或者網(wǎng)銀中的資產(chǎn)。
犯罪團伙基于2G移動網(wǎng)絡(luò)下的GSM通信協(xié)議,搭配專用手機,組裝成便于攜帶易使用的短信嗅探設(shè)備。通過號碼收集設(shè)備獲取一定范圍下的潛在的手機號碼,然后在一些支付網(wǎng)站或移動應(yīng)用的登錄界面,通過“短信驗證碼登錄”途徑登錄,再利用短信嗅探設(shè)備來嗅探短信提取短信中的驗證碼。
大家的銀行卡、身份證號等隱私信息也早早就被泄露在網(wǎng)上,那么資金盜刷對于詐騙分子來說就是輕而易舉的事情,由此掌握目標(biāo)的四大件:手機號碼、身份證號碼、銀行卡號、短信驗證碼。通過獲取的四大件,實施各類與支付或借貸等資金流轉(zhuǎn)相關(guān)的注冊/綁定/解綁、消費、小額貸款、信用抵扣等惡意操作,實現(xiàn)對目標(biāo)的盜刷或信用卡詐騙犯罪。
因為,一般短信嗅探技術(shù)只是同時獲取短信,并不能攔截短信,所以不法分子通常會選擇在深夜作案,因為這時,受害者熟睡,不會注意到異常短信,等到受害人發(fā)現(xiàn)的時候早已經(jīng)銷贓完成。
7. 模擬器/改機工具
對于硬件信息的修改已經(jīng)成為非常重要的手段,而對于硬件信息的更高手段也是愈發(fā)多樣。手機模擬器一種常見的軟件,常見于各類薅羊毛活動,采用多開方式手動操作或是結(jié)合模擬點擊腳本,進行攻擊行為,一般模擬器也具有修改設(shè)備信息的功能。
(模擬器可以完成手機型號修改、IMEI修改、位置修改等功能)
改機工具通過劫持系統(tǒng)函數(shù),偽造模擬指定手機(模擬器)的設(shè)備信息的APP,能夠欺騙廠商在設(shè)備維度的檢測。改機工具會從系統(tǒng)層面劫持獲取設(shè)備基本信息的接口,APP只能得到偽造的假數(shù)據(jù)。Andriod和iOS都有很多相應(yīng)的改機工具,Andriod改機大部分都基于Xposed框架,需要Root,iOS大多基于Cydia框架,需要越獄。
系統(tǒng)篇
本篇會主要介紹風(fēng)控系統(tǒng)內(nèi)部的一些功能及概覽,以及支撐起風(fēng)控系統(tǒng)運轉(zhuǎn)的一些功能模塊,不同家企業(yè)基于自身業(yè)務(wù)的差別風(fēng)控系統(tǒng)可能也有差別,此處會介紹一些較為通用的風(fēng)控系統(tǒng)功能模塊。
此篇建議風(fēng)控初級產(chǎn)品人員瀏覽。
1. 風(fēng)控決策引擎
風(fēng)控決策引擎是風(fēng)控的大腦,即在各環(huán)節(jié)通過一大堆原始數(shù)據(jù)的輸入,通過負面名單、規(guī)則策略、模型結(jié)果等方面的綜合輸出,以實現(xiàn)最終決策的作用。跟人的大腦作用類似,通過外界要素的輸入做出正確的判別,這塊后續(xù)還涉及到一個錯誤反哺優(yōu)化的迭代機制,所以一個決策引擎的強大是一個風(fēng)控系統(tǒng)能
下圖為一個典型的風(fēng)控決策引擎應(yīng)該具備的基本功能(只做功能展示作用):
(1)??支持節(jié)點無限分叉
(2)??支持各類邏輯、計算、深度挖掘類的規(guī)則
(3)??支持多種處理結(jié)果返回,通過、拒絕、人工、預(yù)警、加驗短信等
(4)??靈活的規(guī)則庫,可以做到秒級實時上線
2. 設(shè)備指紋技術(shù)
設(shè)備指紋并不是一個新的概念,而是在風(fēng)控工作中常遇到的,即對某一設(shè)備的唯一標(biāo)記,即“設(shè)備的身份證”,早期的時候大家喜歡用IMEI\IDFV這樣的要素作為設(shè)備的身份識別標(biāo)記。
但是前文也提過,更改設(shè)備參數(shù)已經(jīng)是一個非常容易實現(xiàn)的東西,所以設(shè)備指紋技術(shù)就應(yīng)運而生??偟膩碚f是通過采集設(shè)備多方面的要素,并通過一定的權(quán)重和算法加密之后得到的一串字符,目前有多家安全乙方公司提供類似的服務(wù),因為各家的權(quán)重、算法設(shè)置不同,所以不能通用。另外,設(shè)備指紋技術(shù)除了安卓、IOS、H5之外,隨著小程序應(yīng)用的盛行,對于小程序設(shè)備指紋的采集也是個較大的挑戰(zhàn)。
常見的設(shè)備指紋采集要素(很小部分的要素):
目前來看沒有一家能夠有效的識別不同的設(shè)備,這塊也是個攻防對抗不斷優(yōu)化提升的過程。
3. 知識圖譜技術(shù)
欺詐案件(比如身份造假,團體欺詐,代辦包裝等),且會涉及到復(fù)雜的關(guān)系網(wǎng)絡(luò),這也給欺詐審核帶來了新的挑戰(zhàn)。
知識圖譜,作為關(guān)系的直接表示方式,可以很好地解決這兩個問題。首先,知識圖譜提供非常便捷的方式來添加新的數(shù)據(jù)源,知識圖譜本身就是用來表示關(guān)系的,這種直觀的表示方法可以幫助我們更有效地分析復(fù)雜關(guān)系中存在的特定的潛在風(fēng)險。
(點代表人,線代表人與人之間的關(guān)系)
通過知識圖譜可以識別
- 團伙識別:通過某些關(guān)系可以將一個團伙全部鏈接起來;
- 身份偽造:即某個人的身份資料在知識圖譜不同的案件中出現(xiàn)了矛盾;
- 貸后失聯(lián):通過知識圖譜協(xié)助貸后,找到與失聯(lián)人有關(guān)系的聯(lián)系人。
而知識圖譜在風(fēng)控引擎中的應(yīng)用也可以通過規(guī)則、模型等實現(xiàn)。
知識圖譜具體的構(gòu)建方式研發(fā)人員感興趣可以自行搜索相關(guān)資料。
模型篇
該篇內(nèi)容會涉及到一些建模類的東西。模型這個東西本身構(gòu)建過程中會涉及到很多數(shù)理統(tǒng)計類的理論,所以建模人員需要有相當(dāng)?shù)臄?shù)學(xué)背景。該部分不會介紹如何去建模,而是主要介紹一些模型的基本概念、結(jié)論,幫助大家理解。
此篇不建議風(fēng)控建模人員瀏覽,因為你們都會!其他的風(fēng)控小伙伴可以靜下心來認真看下,其實理解起來并不那么神秘,理解之后你就可以試著跟建模的同學(xué)撕逼了:
你的模型效果不好,我不用?。?/p>
1. 分類模型與評分卡
1.1 分類模型
分類模型是風(fēng)控中最常用的模型之一,即在一堆樣本中判定哪些有可能是好用戶哪些有可能是壞用戶,所以換句話說,風(fēng)控是人工智能最容易介入、也是介入較領(lǐng)域。
目前在風(fēng)控中用的較多的分類模型包括決策樹、邏輯回歸、神經(jīng)網(wǎng)絡(luò)、隨機森林等,這些模型本身就具備著分類的功能,通過一堆歷史上帶有標(biāo)簽的數(shù)據(jù)并結(jié)合min(損失函數(shù))的過程完成訓(xùn)練,期望可以通過綜合一系列帶有區(qū)分度的指標(biāo)得到一個綜合評分,以期可以實現(xiàn)對某一個樣本進行評價的目的。
模型本身其實是一個很有溫度的東西,根據(jù)一堆冷冰冰的原始數(shù)據(jù)的輸入能夠得到一個比人的直觀感知更科學(xué)、更定量的結(jié)果,難道不是很有趣么。其實在建模的過程中,其實因為損失函數(shù)的設(shè)定,本身已經(jīng)把人的直觀認知融入到模型當(dāng)中,在建模的過程中已經(jīng)添加了人的感情因素在里面,就跟女媧造人一樣:用一堆冰冷的泥土去賦予生命,建模的過程回頭再看看也是如此。
1.2 評分卡
評分卡模型是分類模型中的一種特殊表現(xiàn)形式,我們直觀看到的評分卡大概是類似于以下圖表的,即不同的x變量會給與不同的分數(shù),比如年齡在一定區(qū)間內(nèi)的加m分,在另外一個區(qū)間給n分,看著是很隨意,但是實際不然。
評分卡模型本質(zhì)核心是基于邏輯回歸模型衍生的,根本上是結(jié)合企業(yè)的業(yè)務(wù)形態(tài)并結(jié)合邏輯回歸當(dāng)中各個參數(shù)前面的系數(shù)進行轉(zhuǎn)換(如根據(jù)模型中年齡前面的系數(shù)進行轉(zhuǎn)化),具體轉(zhuǎn)換過程暫不表述
上圖為某一典型的評分卡效果演示
2. 模型評價指標(biāo):混淆矩陣、ROC與KS
評價指標(biāo)指的是一個模型做出來了,他的效果怎么樣呢?這塊的指標(biāo)理解清楚了,也更方便的幫助業(yè)務(wù)人員跟建模人員撕逼。
很多作者在寫有關(guān)評價指標(biāo)的時候運用大量的字母、公式等,讓讀者讀起來非常吃力,我很不喜歡這種方式,但是實際上這塊的只管理解是非常簡單的。
在1的描述中,我們構(gòu)建了一個模型,y=f(Xi),于是對于所有樣本,基于這些樣本的自變量Xi,我們可以得到每個樣本對應(yīng)的y值,這個y值代表的就是這個樣本逾期的概率。(下述來自于實驗樣本結(jié)果)
2.1 混淆矩陣
混淆矩陣不能作為評估模型的唯一標(biāo)準(zhǔn),但是混淆矩陣是算模型其他指標(biāo)的基礎(chǔ),后面會講到,所以對混淆矩陣的理解是必要的。
模型跑出來的“Y”值為每個客戶的預(yù)測違約概率,可以理解為客戶的有多大的可能違約。把Y等分分段,通過每分段內(nèi)的區(qū)間人數(shù)和實際壞用戶的標(biāo)簽進行比對,可以得到下述圖表。
我們從上圖發(fā)現(xiàn),橫軸越大其bad率越高,而混淆矩陣就是基于上述的預(yù)測結(jié)果生成的。
我們?nèi)∪魏我粋€x值進行分段,如x=0.5,x<0.5我們認為是好人,x>0.5我們認為是壞人,但是這樣的認定會有誤差,即有可能把實際的好人誤判為壞人,也有可能把實際的壞人漏過判為好人,這就形成了在這個分界點下的混淆矩陣(即綠的是對的):
每一個x值(即分界點)都會形成一個混淆矩陣,而每一個混淆矩陣都會有很多判別指標(biāo):如accuracy、TPR、FPR,就是基于TP\FP\FN\TN四個值的加/除,請讀者自行百度,我也不記得了。
2.2 ks值
KS(Kolmogorov-Smirnov)用于模型風(fēng)險區(qū)分能力進行評估,指標(biāo)衡量的是好壞樣本累計分部之間的差值。好壞樣本累計差異越大,KS指標(biāo)越大,那么模型的風(fēng)險區(qū)分能力越強。
KS值的計算也是基于上述的混淆矩陣。KS的計算步驟如下:
- 計算每個評分區(qū)間的好壞賬戶數(shù);
- 計算每個評分區(qū)間的累計好賬戶數(shù)占總好賬戶數(shù)比率(good%)和累計壞賬戶數(shù)占總壞賬戶數(shù)比率(bad%);
- 計算每個評分區(qū)間累計壞賬戶占比與累計好賬戶占比差的絕對值(累計good%-累計bad%);
- 然后對這些絕對值取最大值即得此模型的K-S值。
說人話就是在某個分割點對應(yīng)的混淆矩陣中,壞人被識別出來的比例(70%的壞人可以被識別出來)-誤殺好樣本的比例(如30%的好人被錯當(dāng)成壞人了)。
因為分割點可以有無數(shù)個,我們可以得到一個曲線,max(壞人被識別出來的比例-誤殺好樣本的比例)的點即為最佳KS值。
在建模中模型的ks要求是達到0.3以上才是可以接受的。
除了上述兩個評價指標(biāo)之外,還有基尼系數(shù)、PSI、AUC等多個評價指標(biāo),主要評價的目的是判定模型的區(qū)分度、穩(wěn)定性等,讀者有興趣可以自行搜索學(xué)習(xí)。
結(jié)語篇
當(dāng)前大數(shù)據(jù)背景下的互聯(lián)網(wǎng)業(yè)務(wù)形態(tài),給風(fēng)控這個已經(jīng)很古老的名詞又賦予了新的意義、新的內(nèi)涵、新的使命,互聯(lián)網(wǎng)業(yè)務(wù)形態(tài)的復(fù)雜性、數(shù)據(jù)爆炸特性,導(dǎo)致風(fēng)控的玩法也愈加多樣。本文主要是一個科普帖,把當(dāng)前互聯(lián)網(wǎng)風(fēng)控業(yè)務(wù)內(nèi)部各環(huán)節(jié)遇到的一些特定名詞給大家嘗試做一些淺嘗輒止的介紹。
業(yè)務(wù)、系統(tǒng)、模型各職能模塊間是相輔相成的,無論做哪方面的工作,理解更多的工作內(nèi)容才能打破職能模塊間的壁壘、更好的去推進工作!
作者:獨孤qiu敗,微信公眾號:互聯(lián)網(wǎng)風(fēng)控那些事兒(anti_fraud_share),互聯(lián)網(wǎng)行業(yè)風(fēng)控產(chǎn)品經(jīng)理,定期分享互聯(lián)網(wǎng)風(fēng)控相關(guān)業(yè)界動態(tài)、系統(tǒng)設(shè)計方案、模型算法
本文由 @獨孤qiu敗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Pexels,基于 CC0 協(xié)議
在上家公司負責(zé)風(fēng)控系統(tǒng)開發(fā),風(fēng)控運營問我打碼平臺是什么,我說是不是跟鑒黃有關(guān)系,太業(yè)余了…… 要是早看過這篇文檔就好了
很有借鑒意義
深入淺出,通俗易懂