互聯(lián)網(wǎng)法訴業(yè)務(wù)數(shù)據(jù)體系建立
編輯導(dǎo)語(yǔ):在實(shí)際工作中,數(shù)據(jù)分析師會(huì)遇到多種類型的數(shù)據(jù)體系,而不單單是業(yè)務(wù)數(shù)據(jù)的監(jiān)控體系。作者就其目前的部門體系的搭建,分享互聯(lián)網(wǎng)法訴業(yè)務(wù)數(shù)據(jù)體系該如何建立,一起來(lái)看看吧。
今年從零開始參與了部門整體體系的搭建,一直忙到9月份才有喘息的機(jī)會(huì),也想分享一下在業(yè)務(wù)數(shù)據(jù)體系搭建的經(jīng)驗(yàn)。
之前看到的很多數(shù)據(jù)體系搭建的分享都是業(yè)務(wù)數(shù)據(jù)監(jiān)控體系搭建,其實(shí)在部門實(shí)際操作中會(huì)涉及多類型的數(shù)據(jù)體系,而不僅僅是業(yè)務(wù)數(shù)據(jù)監(jiān)控體系。以我們部門現(xiàn)在在做的逾期資產(chǎn)處置來(lái)看,很多數(shù)據(jù)的收集是線下數(shù)據(jù)匯總以及清洗,和能夠通過(guò)線上的用戶日志的數(shù)據(jù)收集清洗邏輯完全不同。
在通常的業(yè)務(wù)部門中,有大量的數(shù)據(jù)是在線下通過(guò)EXCEL報(bào)表的形式交互的,這種業(yè)務(wù)形式下整體數(shù)據(jù)的體系會(huì)因?yàn)槿藶?、操作的因素?dǎo)致體系相對(duì)不是那么清晰,加上大部分公司的模式都是業(yè)務(wù)追著數(shù)據(jù)跑,跑著跑著數(shù)據(jù)工作的壓力就特別大,慢慢的數(shù)據(jù)組就全成了工具人了。
目前我們部門的架構(gòu)簡(jiǎn)單分為三個(gè)組別,材料組是對(duì)目前現(xiàn)有的可訴訟證據(jù)材料進(jìn)行甄別、組織全量訴訟材料,渠道組主要對(duì)接外部可委托在各地法院進(jìn)行訴訟的渠道。
因?yàn)樗械臄?shù)據(jù)都是在線下交互的,且完全沒有系統(tǒng)支持,所有的數(shù)據(jù)邏輯只能靠人工在線下進(jìn)行整理。
以實(shí)際業(yè)務(wù)及工作需求為核心拆分現(xiàn)有的數(shù)據(jù)需求:
每一個(gè)工作業(yè)務(wù)步驟下都存在大量記錄的數(shù)據(jù),因此就需要內(nèi)部將所有的數(shù)據(jù)體系按數(shù)據(jù)的統(tǒng)一維度進(jìn)行計(jì)算,也需要確定每個(gè)工作節(jié)點(diǎn)的數(shù)據(jù)回傳時(shí)間和數(shù)據(jù)回傳質(zhì)量以及數(shù)據(jù)檢查項(xiàng)
根據(jù)業(yè)務(wù)的流程,可以大致推導(dǎo)數(shù)據(jù)的流轉(zhuǎn)方向:
由于數(shù)據(jù)交互的節(jié)點(diǎn)下有多人、多渠道參與,不同的同事在數(shù)據(jù)傳遞和數(shù)據(jù)回收的處理方式不盡相同,就需要建立標(biāo)準(zhǔn)的數(shù)據(jù)較驗(yàn)處理規(guī)定和模板。
為了讓每個(gè)數(shù)據(jù)環(huán)節(jié)的數(shù)據(jù)處理情況一致,確保實(shí)際操作的數(shù)據(jù)和分析的數(shù)據(jù)按統(tǒng)一的維度拆分,就需要從一個(gè)整體的角度出發(fā)去核準(zhǔn)數(shù)據(jù)的處理標(biāo)準(zhǔn)和時(shí)間:
以分案為例,案件篩選目前有幾個(gè)需要嚴(yán)格核準(zhǔn)的標(biāo)準(zhǔn),如用戶有多筆欠款,則以合計(jì)欠款金額為實(shí)際欠款金額,該用戶下的所有訂單合并,以實(shí)際用戶案件的維度去考慮訴訟范圍。
如上圖所展示的,就算是同個(gè)用戶在不同的訂單下借款的金額、借款時(shí)間、借款用途與逾期天數(shù)等數(shù)據(jù)是不完全一致的,需要根據(jù)用戶的不同訂單下的訂單特征歸納出完善且可用的用戶特征。
但由于實(shí)際起訴后用戶還款不一定能完成按照起訴的總額歸還,由于公司數(shù)倉(cāng)底層仍是按照訂單作為主鍵的維度建庫(kù),部分歸還的情況下會(huì)需要將用戶的還款按不同的訂單和不同的金額填充規(guī)則(具體根據(jù)借款合同約定。
例如按最早一期欠款的罰息、利息、本金的順序進(jìn)行沖賬)因此會(huì)在推出案件的前期明確同個(gè)用戶下多筆訂單的主次關(guān)系。
此外,需要對(duì)所有后期需要分析的字段的當(dāng)前狀態(tài)進(jìn)行留存,這就需要對(duì)系統(tǒng)內(nèi)所有業(yè)務(wù)相關(guān)字段的含義和更新邏輯有所了解,數(shù)倉(cāng)通常會(huì)保留訂單的當(dāng)前狀態(tài),舉個(gè)例子,用戶目前的逾期狀態(tài)是全部逾期(即所有賬期均未還滿),當(dāng)執(zhí)行院強(qiáng)制執(zhí)行后有部分還款,但不足以抵扣全部欠款,用戶該筆訂單的逾期狀態(tài)會(huì)從全部逾期轉(zhuǎn)變?yōu)椴糠钟馄凇?/p>
同樣地,因?yàn)橛胁糠诌€款,逾期等級(jí)會(huì)下跌,這就需要本地留存部分的靜態(tài)數(shù)據(jù),結(jié)合線上的動(dòng)態(tài)數(shù)據(jù)去看,這就需要建立線下數(shù)據(jù)和線上數(shù)據(jù)的交互,將留存在線下的靜態(tài)數(shù)據(jù)在每一段周期內(nèi)需要按一定的邏輯更新到線上數(shù)據(jù)庫(kù)內(nèi)作為靜態(tài)數(shù)據(jù)留存下來(lái);
這時(shí)候就需要建立一定的數(shù)據(jù)交互邏輯,本地?cái)?shù)據(jù)按什么模板上傳,上傳的時(shí)間點(diǎn),上傳的頻次,什么時(shí)候能夠在線上系統(tǒng)看到這部分靜態(tài)數(shù)據(jù),這部分邏輯就需要和管理數(shù)倉(cāng)的同事們溝通明確;
在完成分案之后,會(huì)對(duì)整體業(yè)務(wù)的進(jìn)展進(jìn)行跟進(jìn),這部分一般就由渠道運(yùn)營(yíng)的同事去推動(dòng);因?yàn)楦鱾€(gè)渠道對(duì)待案件的模式可能不盡相同,數(shù)據(jù)的處理方式也更不一致,舉個(gè)例子,有的渠道有自己的失聯(lián)修復(fù)的手段,有的渠道通過(guò)線下送達(dá)律師函的方式,有的由于合作法院的模式不一樣。
由于渠道特點(diǎn)和運(yùn)營(yíng)模式的特殊性,回傳的數(shù)據(jù)同樣具有特征性,這樣的數(shù)據(jù)是較難按統(tǒng)一的維度清洗的,需要給渠道設(shè)定合理的字段轉(zhuǎn)化代碼。
以渠道統(tǒng)計(jì)的可聯(lián)失聯(lián)數(shù)據(jù)為例,有部分渠道的失聯(lián)定義是聯(lián)系方式能正常接通但無(wú)法聯(lián)系到本人,還有一部分渠道將失聯(lián)界定為用戶的聯(lián)系方式已經(jīng)完全失效,所有的這些非統(tǒng)一性的字段都需要整理歸納為統(tǒng)一字段含義。
因?yàn)樗杏腥藶閰⑴c的過(guò)程一定會(huì)出現(xiàn)部分?jǐn)?shù)據(jù)轉(zhuǎn)化存在問題的情況,最好能夠通過(guò)固定的字典表去核準(zhǔn):
以上的字段類型為目前部門部分業(yè)務(wù)字段名稱和類型展示,因?yàn)楦黝愋妥侄涡枰?、業(yè)務(wù)方和數(shù)倉(cāng)方面完全對(duì)齊字段含義,這樣才能減少數(shù)據(jù)工作人員在數(shù)據(jù)清洗方面的重復(fù)勞動(dòng),盡量簡(jiǎn)化工作流程和數(shù)據(jù)清洗步驟;
當(dāng)然,并不是所有的數(shù)據(jù)在收集的時(shí)刻就會(huì)完全與系統(tǒng)數(shù)據(jù)的類型和字段名稱完全一致,或者編碼形式完全統(tǒng)一(例如編碼形式為GBK/UTF-8)這就需要進(jìn)行一步轉(zhuǎn)化,將收集的標(biāo)準(zhǔn)化字段利用字典表轉(zhuǎn)化為系統(tǒng)/數(shù)據(jù)庫(kù)可以讀取的數(shù)據(jù)統(tǒng)一留存,如果在這個(gè)步驟下是用數(shù)據(jù)組自己操作的話人為錯(cuò)誤是一定無(wú)法避免的,最好是通過(guò)自動(dòng)化的工具去完成數(shù)據(jù)的轉(zhuǎn)化。
可以通過(guò)Python利用pandas和EXCEL、CSV的包完成自動(dòng)化的處理,之后導(dǎo)入本地?cái)?shù)據(jù)庫(kù)通過(guò)表連接查詢用代碼的形式替換業(yè)務(wù)數(shù)據(jù),完成轉(zhuǎn)化之后錄入系統(tǒng);
不過(guò),也不是所有的業(yè)務(wù)數(shù)據(jù)都能通過(guò)自動(dòng)化工具去清洗,還有大量的業(yè)務(wù)數(shù)據(jù)空值由于不能簡(jiǎn)單的根據(jù)特征數(shù)據(jù)填充,只能尋找歷史的情況去嘗試補(bǔ)充,這個(gè)情況是無(wú)法避免的;
數(shù)據(jù)清洗之后就可以慢慢增添分析的需求,分析指標(biāo)建設(shè)這個(gè)已經(jīng)有太多大佬分享過(guò)見解,我就不多說(shuō)了。
在分析盤點(diǎn)體系的建設(shè)過(guò)程中一定會(huì)出現(xiàn)分析體系開始落后于業(yè)務(wù)進(jìn)展的情況(尤其是從0-1的業(yè)務(wù)部門,業(yè)務(wù)的進(jìn)展速度一定是超出實(shí)際工作流程建立速度的)。
這種情況下需要留出一定時(shí)間去梳理數(shù)據(jù)在業(yè)務(wù)流動(dòng)過(guò)程,至于實(shí)際策略的產(chǎn)出,仍需要依托分析結(jié)果進(jìn)行深入挖掘,這個(gè)以后找時(shí)間再分享吧~
作者:Logan_RRRC;公眾號(hào): Logan的運(yùn)營(yíng)學(xué)習(xí)日記
本文由 @Logan_RRRC 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于 CC0 協(xié)議
- 目前還沒評(píng)論,等你發(fā)揮!