為什么我認(rèn)為無(wú)監(jiān)督學(xué)習(xí)在反欺詐中的應(yīng)用場(chǎng)景是一場(chǎng)噱頭?
近些年來(lái),“無(wú)監(jiān)督學(xué)習(xí)在反欺詐中的應(yīng)用”這一概念非常火,然而從應(yīng)用場(chǎng)景以及實(shí)際效果來(lái)看,這更像是一場(chǎng)被扭曲的騙局。
很久沒(méi)更新這個(gè)公眾號(hào),翻一下歷史記錄,上一篇文章都已經(jīng)是年前了。年前的文章中的coming soon中就說(shuō)過(guò)想寫一篇關(guān)于無(wú)監(jiān)督學(xué)習(xí)的文章,不過(guò)萬(wàn)惡的拖延癥一直阻止著我,趁著出差在火車上更新了這篇稿子。
最近聽到比較火的觀點(diǎn)(項(xiàng)目目標(biāo)、工作計(jì)劃等)就是:我要在反欺詐工作中應(yīng)用無(wú)監(jiān)督學(xué)習(xí)的算法,其實(shí)這樣的論點(diǎn)在2015年的時(shí)候就已經(jīng)零零散散地聽到了。
最近這一年多因?yàn)榛ソ痫L(fēng)控發(fā)展的原因,這個(gè)論點(diǎn)開始頻繁現(xiàn)身于各大交流論壇、公眾號(hào)文章,這種感覺(jué)就像無(wú)監(jiān)督學(xué)習(xí)算法是一個(gè)先進(jìn)的手段,不用無(wú)監(jiān)督學(xué)習(xí)就證明你的反欺詐水平很low,隱隱間,感覺(jué)有一種販賣焦慮的咪蒙雞湯~
再到后來(lái),我甚至發(fā)現(xiàn)一點(diǎn)統(tǒng)計(jì)背景都沒(méi)有的做風(fēng)控的人在各種場(chǎng)合都開始大談無(wú)監(jiān)督學(xué)習(xí),用自己對(duì)無(wú)監(jiān)督學(xué)習(xí)一點(diǎn)模糊的認(rèn)知來(lái)體現(xiàn)自己是個(gè)走在領(lǐng)域前沿的行業(yè)專家,感覺(jué)有點(diǎn)歪風(fēng)盛行。
一、一個(gè)領(lǐng)域何種場(chǎng)景下會(huì)使用新方法?
無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)都是出現(xiàn)了幾十年的方法,每一類方法下面都有好幾大類經(jīng)典的算法,在風(fēng)控之外的領(lǐng)域他們都因?yàn)樗惴ǖ牟煌匦杂辛撕芎玫穆涞貞?yīng)用,那為什么這幾十年來(lái)風(fēng)控行業(yè)都在用有監(jiān)督學(xué)習(xí)來(lái)做模型,而從我的行業(yè)了解狀況來(lái)看,無(wú)監(jiān)督學(xué)習(xí)很難有成熟的落地應(yīng)用。為什么這兩年無(wú)監(jiān)督學(xué)習(xí)突然又被炒起來(lái)來(lái)呢,是因?yàn)榘l(fā)生了什么變化么?
其實(shí)我們都知道,一個(gè)方法/工具與特定場(chǎng)景能夠產(chǎn)生新的化學(xué)反應(yīng)的原因無(wú)外乎以下三點(diǎn):
(1)這是一個(gè)新的方法/工具,過(guò)去從來(lái)沒(méi)有出現(xiàn)過(guò)。(2)這個(gè)方法/工具以前已經(jīng)有,但是因?yàn)闂l件受限制,在該場(chǎng)景中從來(lái)沒(méi)有人使用過(guò)。
(3)特定的場(chǎng)景發(fā)生了新的業(yè)務(wù)外延,讓這個(gè)方法/工具有了新的用武之地。
1. 是因?yàn)闊o(wú)監(jiān)督學(xué)習(xí)的方法剛剛出現(xiàn)嗎?
很明顯不是,好幾類經(jīng)典的無(wú)監(jiān)督學(xué)習(xí)方法出現(xiàn)時(shí)間估計(jì)有一百年時(shí)間了(此處我沒(méi)有細(xì)細(xì)考察,希望指正),而有監(jiān)督學(xué)習(xí)當(dāng)中經(jīng)典的邏輯回歸方法應(yīng)該是在1950年之后出現(xiàn)的事情,所以這不是一個(gè)新的方法。
2. 是因?yàn)闊o(wú)監(jiān)督學(xué)習(xí)在反欺詐場(chǎng)景中的使用條件限制嗎?
很明顯也不是,限制一個(gè)學(xué)習(xí)算法在場(chǎng)景中的應(yīng)用最大的束縛無(wú)外乎就是計(jì)算速度的問(wèn)題,而在有監(jiān)督學(xué)習(xí)中,很多算法的計(jì)算量遠(yuǎn)遠(yuǎn)大于無(wú)監(jiān)督學(xué)習(xí)。所以肯定也不是硬件和軟件條件的限制。
3. 是因?yàn)榉雌墼p業(yè)務(wù)中出現(xiàn)了新的特征和業(yè)務(wù)外延嗎?
這是目前認(rèn)為反欺詐中需要無(wú)監(jiān)督學(xué)習(xí)的主要的論點(diǎn):目前隨著互聯(lián)網(wǎng)形態(tài)的發(fā)展,互聯(lián)網(wǎng)對(duì)運(yùn)營(yíng)效率的提升同時(shí)也帶來(lái)了非面對(duì)面交易、高并發(fā)、非結(jié)構(gòu)性數(shù)據(jù)的反欺詐難點(diǎn),傳統(tǒng)的專家規(guī)則和有監(jiān)督學(xué)習(xí)難以解決錯(cuò)綜復(fù)雜、變幻莫測(cè)的欺詐形式,如果能夠用無(wú)監(jiān)督學(xué)習(xí)自動(dòng)的把相似的點(diǎn)全部聚集在一起,就可以找出欺詐團(tuán)伙。???
是的,看起來(lái)很有道理的樣子,感覺(jué)也能說(shuō)得通,但是實(shí)際上真的是如此嗎?
二、無(wú)監(jiān)督學(xué)習(xí)在反欺詐中的應(yīng)用怎么就火了?
無(wú)監(jiān)督學(xué)習(xí)在反欺詐學(xué)習(xí)中的應(yīng)用這個(gè)論點(diǎn)火起來(lái)的心路歷程大概就是:
(1)A(行業(yè)KOL):
有人邀請(qǐng)我去風(fēng)控論壇做演講,講點(diǎn)啥呢?
該講的都講過(guò)了,怎么體現(xiàn)我逼格更高呢?
好像前幾天在網(wǎng)上看過(guò)無(wú)監(jiān)督學(xué)習(xí)在反欺詐應(yīng)用的例子,雖然我們公司也沒(méi)怎么應(yīng)用落地,那就講無(wú)監(jiān)督學(xué)習(xí)吧。
(2)B(部門leader):
又要寫明年規(guī)劃了,怎么樣才能把工作規(guī)劃逼格抬上去呢?
好像前兩天在論壇上看過(guò)有家同業(yè)好像用無(wú)監(jiān)督學(xué)習(xí)了,那我寫上去吧,好不好用到時(shí)候再說(shuō)。
(3)C(剛?cè)胄忻刃拢?/p>
看看網(wǎng)上一些大佬老說(shuō)無(wú)監(jiān)督學(xué)習(xí)應(yīng)用在風(fēng)控領(lǐng)域是一個(gè)方向,我也趕緊學(xué)習(xí)學(xué)習(xí),看看能不能趕上潮流前沿
以此輪詢~
而這類觀點(diǎn)之所以被認(rèn)可,無(wú)外乎因?yàn)?br /> (1)懂業(yè)務(wù)不懂模型的風(fēng)控人:說(shuō)的是啊,壞人都具有相同的特征,無(wú)監(jiān)督學(xué)習(xí)確實(shí)能夠把壞人聚類。
(2)懂模型不懂業(yè)務(wù)的風(fēng)控人:說(shuō)的是啊,無(wú)監(jiān)督學(xué)習(xí)把不同的人進(jìn)行分類,他們業(yè)務(wù)就能找到壞人啦。
這個(gè)邏輯就是雞生蛋還是蛋生雞的問(wèn)題。
業(yè)內(nèi)有一家一直號(hào)稱做無(wú)監(jiān)督學(xué)習(xí)算法的風(fēng)控乙方,該家公司的創(chuàng)始人背景也很牛,一直在業(yè)內(nèi)號(hào)稱要用無(wú)監(jiān)督學(xué)習(xí)解決反欺詐難題。很多投資人會(huì)覺(jué)得這是一個(gè)新興的領(lǐng)域,公司領(lǐng)導(dǎo)也覺(jué)得這是非做不可的(有點(diǎn)像鉆石的營(yíng)銷騙局)。在搜索引擎上用“無(wú)監(jiān)督學(xué)習(xí)”、“反欺詐”做關(guān)鍵詞,你會(huì)發(fā)現(xiàn),大部分的文章都是這家公司或者這家公司的員工發(fā)布出來(lái)的,標(biāo)題也很驚悚——無(wú)監(jiān)督學(xué)習(xí)改變反欺詐、無(wú)監(jiān)督學(xué)習(xí)反欺詐是主流等等。
整理一下目前網(wǎng)上所謂的“典型的無(wú)監(jiān)督學(xué)習(xí)做反欺詐”的流程:
(1)特征映射
(2)聚類算法
(3)分析、判斷欺詐屬性
簡(jiǎn)單點(diǎn)說(shuō)就是:
(1)找變量:幾百維甚至上千維變量,與有監(jiān)督學(xué)習(xí)一模一樣。
(2)聚類算法:按照變量用聚類算法聚成集群,分成很多組,有可能需提前降維。
(3)看看這個(gè)組是不是欺詐:怎么看?看看有多少黑名單,看看怎么關(guān)聯(lián)在一起的。
問(wèn)題來(lái)了,在線上實(shí)際應(yīng)用的時(shí)候,你如何判斷這個(gè)組是不是欺詐?就因?yàn)榻M成員多就把這個(gè)組認(rèn)為是團(tuán)伙么,我怕你會(huì)被業(yè)務(wù)噴死?,F(xiàn)在最大的問(wèn)題在于你把組分出來(lái)了,你如何給組定義?
為了認(rèn)定這個(gè)分出來(lái)的組是不是欺詐,那就要根據(jù)這個(gè)組的特征,比如里面有多少壞用戶啊、是通過(guò)何種方式聚集在一起的啊,然后訓(xùn)練一個(gè)模型判斷這個(gè)組是不是壞的?
等等,這不就是有監(jiān)督學(xué)習(xí)了?針對(duì)一個(gè)個(gè)(集群)組來(lái)進(jìn)行有監(jiān)督學(xué)習(xí)?
針對(duì)集群的有監(jiān)督學(xué)習(xí),其實(shí)本質(zhì)上還是集群中個(gè)體的有監(jiān)督學(xué)習(xí),比如該用戶所用設(shè)備關(guān)聯(lián)幾個(gè)壞用戶,一個(gè)WiFi網(wǎng)絡(luò)下有多少用戶申請(qǐng)類似。所以這個(gè)所謂針對(duì)無(wú)監(jiān)督出來(lái)集群+對(duì)集群的有監(jiān)督學(xué)習(xí),本質(zhì)上還是個(gè)體指標(biāo)的有監(jiān)督學(xué)習(xí)。
這個(gè)直觀的例子就是:我要從上海到北京,本來(lái)坐京滬高鐵直達(dá)就行了。你說(shuō)不行,要先飛到武漢,再?gòu)奈錆h高鐵到北京,excuse me?有錢任性么。
另外還有一個(gè)問(wèn)題在于:這個(gè)分組是并不穩(wěn)定的,在不同的閾值和分組方法下,得到的分組結(jié)果天壤之別,這種不穩(wěn)定在實(shí)際生產(chǎn)環(huán)境中又如何使用?
引申上面的例子就是:我要從上海到北京,本來(lái)坐京滬高鐵直達(dá)就行了。你說(shuō)不行,中間要轉(zhuǎn)一道,從哪轉(zhuǎn),不確定隨機(jī)的,這次是武漢,下次是重慶,在下次是廣州,excuse me?
三、實(shí)際效果又如何?
以上這個(gè)觀點(diǎn),我從業(yè)內(nèi)某家甲方做了幾十萬(wàn)樣本(包括原本規(guī)則已拒絕樣本+通過(guò)樣本)的無(wú)監(jiān)督學(xué)習(xí)測(cè)試報(bào)告反饋中摘取典型的幾個(gè)群組,看看號(hào)稱的無(wú)監(jiān)督學(xué)習(xí)到底識(shí)別結(jié)果到底是怎么樣的?
這應(yīng)該算是測(cè)試反饋比較有效的群組了,其他的聚集群組是不是敢在生產(chǎn)中實(shí)際應(yīng)用,群組里面的效果表現(xiàn)如何,很難保證。這樣的群組分類,本質(zhì)上就是一種有監(jiān)督,一種用實(shí)際結(jié)果來(lái)證明挑出來(lái)的這個(gè)群組是壞群組的不科學(xué)的驗(yàn)證方法。
另外,這些規(guī)則策略應(yīng)該都是專家規(guī)則里面直接做的,為什么要多次一舉畫蛇添足繞這么大一圈,效果也沒(méi)好在哪里。
有些小伙伴會(huì)說(shuō),你看不是多識(shí)別出來(lái)了幾筆?
其實(shí),大概率那是專家規(guī)則的閾值?。ū热玳撝禐?,所以通過(guò)了2個(gè)人),新樣本進(jìn)件是有次序的,第一筆第二筆欺詐總是不容易被識(shí)別的。就算這個(gè)算法應(yīng)用到生產(chǎn)當(dāng)中,他也沒(méi)辦法在前兩筆就識(shí)別出來(lái)的,本質(zhì)上還是一樣的效果。
所謂的無(wú)監(jiān)督學(xué)習(xí),繞了一大圈回來(lái),還是得依賴專家規(guī)則+有監(jiān)督學(xué)習(xí),多出來(lái)的那一步。這里想到2個(gè)不知道是否真假的故事:
(1)聯(lián)合利華引進(jìn)了一條香皂包裝生產(chǎn)線,結(jié)果發(fā)現(xiàn)這條生產(chǎn)線有個(gè)缺陷:常常會(huì)有盒子里沒(méi)裝入香皂??偛荒馨芽蘸凶淤u給顧客啊,他們只得請(qǐng)了一個(gè)學(xué)自動(dòng)化的博士后設(shè)計(jì)一個(gè)方案來(lái)分揀空的香皂盒。博士后拉起了一個(gè)十幾人的科研攻關(guān)小組,綜合采用了機(jī)械、微電子、自動(dòng)化、X射線探測(cè)等技術(shù),花了幾十萬(wàn),成功解決了問(wèn)題。每當(dāng)生產(chǎn)線上有空香皂盒通過(guò),兩旁的探測(cè)器會(huì)檢測(cè)到,并且驅(qū)動(dòng)一只機(jī)械手把空皂盒推走。
中國(guó)南方有個(gè)鄉(xiāng)鎮(zhèn)企業(yè)也買了同樣的生產(chǎn)線,老板發(fā)現(xiàn)這個(gè)問(wèn)題后大為發(fā)火,找了個(gè)小工來(lái)說(shuō):“***給老子把這個(gè)搞定,不然你給老子爬走?!毙」ず芸煜氤隽宿k法:他花了90塊錢在生產(chǎn)線旁邊放了一臺(tái)大功率電風(fēng)扇猛吹,于是空皂盒都被吹走了。
(2)在太空中由于失重,無(wú)法使用圓珠筆或者自來(lái)水筆進(jìn)行記錄,對(duì)此美國(guó)宇航局投入大量資金,開發(fā)了可以在失重條件下寫字的太空用自來(lái)水筆,而前蘇聯(lián)的宇航員則簡(jiǎn)單地用鉛筆寫字解決了這個(gè)問(wèn)題。
雖然故事可能是假的,但是話粗理不粗,為了營(yíng)造一個(gè)噱頭,是不是資本推動(dòng)的噱頭就不好說(shuō)了,把本來(lái)能夠很簡(jiǎn)單解決的事情包了一個(gè)無(wú)監(jiān)督的外衣,其實(shí)在反欺詐的實(shí)質(zhì)上沒(méi)有任何改變。
過(guò)去,我一直用有監(jiān)督的各類算法解決遇到的風(fēng)險(xiǎn)問(wèn)題,我也理解無(wú)監(jiān)督學(xué)習(xí)的實(shí)現(xiàn)機(jī)理。但是,我知道無(wú)監(jiān)督學(xué)習(xí)在反欺詐的業(yè)務(wù)落地層是極其困難的,能夠落地的所謂的無(wú)監(jiān)督學(xué)習(xí)本質(zhì)上都是有監(jiān)督學(xué)習(xí)。
四、總結(jié)
從研究生開始,就開始做企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警,所以對(duì)各類無(wú)監(jiān)督、有監(jiān)督的算法都會(huì)有比較深的涉及;過(guò)去幾年來(lái),從研究生畢業(yè)一直做反欺詐相關(guān)的工作,從電商做到信貸,算是站在反欺詐業(yè)務(wù)的第一線,黑灰產(chǎn)對(duì)抗、風(fēng)控系統(tǒng)設(shè)計(jì)、策略體系設(shè)計(jì)等等。其實(shí)風(fēng)控的人一定要懂一點(diǎn)算法背后機(jī)理、也真正地做過(guò)業(yè)務(wù),才知道到底什么樣的算法是最有用的。
對(duì)于無(wú)監(jiān)督學(xué)習(xí)在反欺詐場(chǎng)景中的實(shí)際應(yīng)用場(chǎng)景的可行性,我是持懷疑偏負(fù)面的態(tài)度的,有沒(méi)有可能說(shuō)是資本推動(dòng)的噱頭或者騙局我不敢說(shuō)(我在跟投資機(jī)構(gòu)的溝通中對(duì)這種方法表示了質(zhì)疑),但是至少目前我沒(méi)有看到任何有實(shí)質(zhì)性改觀的應(yīng)用場(chǎng)景。無(wú)監(jiān)督學(xué)習(xí)是一個(gè)門檻很低的學(xué)習(xí)方法,在其他領(lǐng)域已經(jīng)有非常廣泛的涉及了,但是在反欺詐領(lǐng)域,暫時(shí)沒(méi)有看到有意義和實(shí)際效果的應(yīng)用落地。
更進(jìn)一步的,反欺詐本身也是對(duì)人性的考量,機(jī)器永遠(yuǎn)在人性這塊代替不了人??恐欢褦?shù)據(jù)無(wú)來(lái)由的做聚類從反欺詐業(yè)務(wù)的底層來(lái)看就不怎么牢靠,連有監(jiān)督學(xué)習(xí)都需要認(rèn)真去考量人性,更何況無(wú)監(jiān)督學(xué)習(xí)呢?
此篇文章無(wú)意抹黑任何人或者任何企業(yè),純粹行業(yè)的技術(shù)探討。
作者:獨(dú)孤qiu敗,微信公眾號(hào):互聯(lián)網(wǎng)風(fēng)控那些事兒(anti_fraud_share),互聯(lián)網(wǎng)行業(yè)風(fēng)控產(chǎn)品經(jīng)理,定期分享互聯(lián)網(wǎng)風(fēng)控相關(guān)業(yè)界動(dòng)態(tài)、系統(tǒng)設(shè)計(jì)方案、模型算法。
本文由 @獨(dú)孤qiu敗 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自 Unsplash,基于 CC0 協(xié)議
- 目前還沒(méi)評(píng)論,等你發(fā)揮!