數(shù)據(jù)ETL:反作弊的應(yīng)用與基礎(chǔ)模型
文章對數(shù)據(jù)ETL中的反作弊應(yīng)用進(jìn)行了簡單的梳理分析,希望通過此文能夠加深你對數(shù)據(jù)ETL的認(rèn)識。
一、反作弊作用于哪個階段?
在做反作弊之前,我們要明確整個數(shù)據(jù)從底層到數(shù)據(jù)中臺過程中流向是什么樣的。這里,我梳理了一個模型,它可以反映這一過程。
數(shù)據(jù)從原始采集經(jīng)過“清洗規(guī)范”,會形成“通用數(shù)據(jù)”,這里會過濾掉異常數(shù)據(jù)供上層使用。
通用數(shù)據(jù)會根據(jù)業(yè)務(wù)場景,聚合成符合業(yè)務(wù)指標(biāo)計(jì)算的數(shù)據(jù),即“應(yīng)用數(shù)據(jù)”,比如說是“主題場景”的數(shù)據(jù)?!爸黝}場景”的數(shù)據(jù)可以是基于大背景的場景(橫向),如:推薦業(yè)務(wù)場景、搜索業(yè)務(wù)場景。也可以是垂直到業(yè)務(wù)線的場景(縱向),如:某項(xiàng)購物時的推薦場景、短視頻搜索的業(yè)務(wù)場景。這一過程會產(chǎn)生“數(shù)據(jù)殘?jiān)?,這部分?jǐn)?shù)據(jù)是暫時沒有應(yīng)用場景的數(shù)據(jù)。
比如,在推薦商品時,你只取了用戶的年齡、性別等作為特征,剩下的用戶姓名這個特征數(shù)據(jù)在這個場景應(yīng)用不到,它就成了暫時的“數(shù)據(jù)殘?jiān)?。不過,你可能在信貸業(yè)務(wù)場景中使用到這個特征數(shù)據(jù)(用戶姓名),那種應(yīng)用場景下它就不是“數(shù)據(jù)殘?jiān)薄?/p>
應(yīng)用數(shù)據(jù)只是一個基礎(chǔ)可用的數(shù)據(jù)集市,還需要經(jīng)過反作弊系統(tǒng)來過濾掉具體應(yīng)用場景下的作弊用戶或者設(shè)備,形成“業(yè)務(wù)數(shù)據(jù)”。
最終,跟進(jìn)業(yè)務(wù)需求等制定數(shù)據(jù)指標(biāo)、維度等計(jì)算邏輯,并在數(shù)據(jù)中臺形成可視化數(shù)據(jù)。
綜上,我們可以發(fā)現(xiàn),反作弊是在“應(yīng)用數(shù)據(jù)”與“業(yè)務(wù)數(shù)據(jù)”之間work的。
二、反作弊基礎(chǔ)模型
1. 通用基礎(chǔ)設(shè)備過濾規(guī)則
這里面可以是人為設(shè)定的一些規(guī)則(比如:設(shè)備中安裝有淘寶APP版本號大于線上最新版本的用戶都是作弊用戶),也可以是基于經(jīng)驗(yàn)總結(jié)的設(shè)備屬性。舉個例子:
2. 數(shù)據(jù)分析系統(tǒng)
這里面主要是根據(jù)業(yè)務(wù)場景,分析業(yè)務(wù)屬性與用戶屬性在結(jié)合的過程中產(chǎn)生的作弊用戶。當(dāng)然,可以通過業(yè)務(wù)規(guī)則或者算法來找出這部分用戶。舉例,在投放廣告時,可以根據(jù)用戶的uid、ip等找出這些屬性與某些廣告是否存在強(qiáng)關(guān)聯(lián)關(guān)系,試圖找出用戶有惡意刷廣告的行為。下圖給大家介紹幾個算法以及其應(yīng)用場景。
3. 評分系統(tǒng)
評分系統(tǒng)也是基于業(yè)務(wù)場景來制定的規(guī)則或算法,從而產(chǎn)生對應(yīng)的黑名單。比如,在短視頻領(lǐng)域中,可以根據(jù)用戶行為畫像和視頻畫像來給視頻或者用戶打分。其主要流程可以參考下圖:
這里面關(guān)鍵是如何建立“過濾模型”,由于保密問題,這塊需要大家根據(jù)業(yè)務(wù)場景自行建模。
4. 機(jī)器學(xué)習(xí)系統(tǒng)
這部分沒有什么太多可以分享的,因?yàn)槭忻嫔蠙C(jī)器學(xué)習(xí)的算法有很多,也很成熟,需要根據(jù)業(yè)務(wù)場景來選模、建模,甚至優(yōu)化模型等等。
作者:軟院猛哥 ?人人都是產(chǎn)品經(jīng)理網(wǎng)“萌新一枚”
本文由 @軟院猛哥 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
能加個微信嗎,我想跟您交流一下