如何做數(shù)據(jù)標準化:哪類數(shù)據(jù)需要標準化處理
將一個東西標準化,可以提高生產(chǎn)效率,數(shù)據(jù)也是如此。但在開始化之前,我們需要先來看看,哪些數(shù)據(jù)需要進行標準化處理,以及如何處理。
關(guān)于“數(shù)據(jù)標準化”,MBA智庫百科的解釋如下:
數(shù)據(jù)標準化是指研究、制定和推廣應(yīng)用統(tǒng)一的數(shù)據(jù)分類分級、記錄格式及轉(zhuǎn)換、編碼等技術(shù)標準的過程。
主要指的是數(shù)據(jù)治理中的數(shù)據(jù)標準化工作,包括數(shù)據(jù)交換、數(shù)據(jù)質(zhì)量和數(shù)據(jù)標準等一系列內(nèi)容,可稱之為“數(shù)據(jù)標準化體系建設(shè)”。在這個內(nèi)涵下,要做好數(shù)據(jù)標準化,需要做:
- 建立數(shù)據(jù)模型標準并落地標準化建模流程
- 建立數(shù)據(jù)編碼標準
- 系統(tǒng)集成標準化
但我們今天所說的,并不是這個“數(shù)據(jù)標準化”。而是“數(shù)據(jù)預(yù)處理(也稱?數(shù)據(jù)清洗)”中的一種數(shù)據(jù)處理手段。
在說“什么是數(shù)據(jù)標準化”之前,我們先來說說“為什么要做數(shù)據(jù)標準化”。
回想一下人類發(fā)展史,可以了解到,開啟工業(yè)化時代的必要條件之一是——零件標準化。
沒錯,只有當工廠實現(xiàn)了“零件標準化”,才真正算是步入了工業(yè)化時代,生產(chǎn)效率得到了極大的提升。
為什么零件標準化能帶來這么大的增效呢?
因為有了它,工廠生產(chǎn)零件可以完全按照圖紙規(guī)范來,并且就算是不同廠家生產(chǎn)的零件,只要是按照圖紙規(guī)范來的,都是可以通用的。此舉大大提高了零件的質(zhì)量和可用性,并且使得工廠之間的協(xié)同和合作變得尤為高效,零件再組裝成更大的可用商品也就更高效和保質(zhì)保量了。
對于數(shù)據(jù)來說,同樣地,實現(xiàn)數(shù)據(jù)標準化,能夠為整個數(shù)據(jù)生產(chǎn)鏈條帶來效率的提升和質(zhì)量的保證。
數(shù)據(jù)標準化需要將數(shù)據(jù)對象按照我們后續(xù)處理的要求切成所需的形態(tài),我們要做的,就是定義這個“模具”并讓它開始工作。
在講到“如何做數(shù)據(jù)標準化”之前,我們需要先來看看,哪些數(shù)據(jù)需要進行標準化處理。
一、量級不一數(shù)據(jù)
比如現(xiàn)在要分析門店銷售額和店均銷量對門店競爭力的影響。在業(yè)務(wù)認知上,此兩者的權(quán)重應(yīng)是相當?shù)?。但?shù)值的量級卻是不一樣的。
試想一下,如果讓門店銷售額和店均銷量直接參與計算,會發(fā)生什么事?
門店銷售額的數(shù)值量級遠大于店均銷量,必然就會導(dǎo)致店均銷量對結(jié)果的影響被拉得微乎其微,而這并不符合業(yè)務(wù)實際,也不符合我們想要的影響因子系數(shù)配比。
那么這時候,就需要對這類數(shù)據(jù)進行“去量綱化”這種數(shù)據(jù)標準化的處理。
1. 去量綱化
那么“去量綱化”又怎么做呢?有哪些方法可以用?羅列如下。
min-max標準化
首先,我們需要確定一個原則,既然是“去量鋼化”,那么我們要做的就是:把所有參與計算的自變量的取值區(qū)間拉到同一個區(qū)間。
min-max標準化這個方法即是將這個統(tǒng)一取值區(qū)間定義為:[0,1]。不管原本多大量級的指標,都需要經(jīng)過處理后落在這個區(qū)間內(nèi)。
問題又來了,如何處理能達到這個效果呢?
這里有個公式:(X-min)/(max-min),所有數(shù)據(jù)經(jīng)過這個公式的運算后都可以落在[0,1]區(qū)間上。屬于最簡單的線性變換法。
z-score標準化
z-score標準化這個方法即是將這個統(tǒng)一取值區(qū)間定義為:圍繞0上下波動。主要是基于均值判斷單個具體值是偏高還是偏低。
這里的公式是:(X-Mean)/Std。大于0說明高于平均水平,小于0說明低于平均水平。
歸一化
歸一化與“min-max標準化”類似,都是使處理后的數(shù)據(jù)落在[0,1]區(qū)間。
公式:X?/?(x1+x2+…Xn)。對正數(shù)進行變換,將數(shù)值的絕對值變成相對值關(guān)系。
其他方法
其他的方法還有如中心化、均值化、區(qū)間化等都可以實現(xiàn)將數(shù)據(jù)處理到期望的確定范圍內(nèi)。
- 中心化:X-Mean(讓數(shù)據(jù)變成平均值為0的一組數(shù)據(jù))
- 均值化:X/Mean
- 區(qū)間化:a+(b-a)*(X-Min)/(Max-Min)【可將數(shù)據(jù)壓縮到區(qū)間[a,b]中】
二、指標作用方向不一數(shù)據(jù)
比如現(xiàn)在要分析不同商品的優(yōu)劣,從而用于選品的決策。而評價商品的優(yōu)劣則需要從多維度來評估,涉及到若干個指標。常見的,如動銷和同質(zhì)化。在業(yè)務(wù)認知上,代表動銷的指標動銷率、銷量等,數(shù)值越高則商品表現(xiàn)越好;代表同質(zhì)化的同功效SKU數(shù),數(shù)值越低說明同質(zhì)化程度越低則商品表現(xiàn)(稀缺性優(yōu)勢)越好。到這里,各位看官應(yīng)該可以看出來,這兩種指標的作用方向是不一樣的,即:一個是越高越好,另一個是越低越好。
那么,如果讓動銷率和同功效SKU數(shù)直接參與計算,又會發(fā)生什么事?
商品評分隨動銷率的增高而增高,這沒問題。但商品評分隨同功效SKU數(shù)的增高而增高就不合理了,同質(zhì)化程度的增加只能說明該商品的稀缺性和獨特競爭優(yōu)勢走弱,商品評分應(yīng)該隨之降低才是符合業(yè)務(wù)實際的。
那么這時候,就需要對這類數(shù)據(jù)進行“負向指標正向化”這種數(shù)據(jù)標準化的處理。
1. 負向指標正向化
對于“同功效SKU數(shù)”這類負向指標,我們的處理方式是,套入如下公式:
(max-X)/?(max-min)
經(jīng)過如此數(shù)據(jù)處理后,便可將負向指標轉(zhuǎn)為正向指標,且結(jié)果將落在[0,1]區(qū)間內(nèi),從而實現(xiàn)了數(shù)據(jù)的標準化。
2. 中間型指標處理
作為負向指標正向化的變種,對于存在理想中間值的情況,可以采用如下方式:
公式:
作用:對中間型指標數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間。原數(shù)據(jù)等于理想值,處理結(jié)果為1;原數(shù)據(jù)越靠近理想值,處理結(jié)果值就越接近1。
3. 區(qū)間型指標處理
除中間型指標處理外,還存在另一變種——區(qū)間型指標處理。公式如下:
在此方法里,[a,b]是假設(shè)的最佳區(qū)間。
作用:對區(qū)間型指標數(shù)據(jù)的線性變換,使結(jié)果落到[0,1]區(qū)間。原數(shù)據(jù)若在理想?yún)^(qū)間內(nèi),處理結(jié)果為1;原數(shù)據(jù)越靠近理想?yún)^(qū)間范圍,處理結(jié)果值就越接近1。
對于這兩類“不夠標準化”的數(shù)據(jù),經(jīng)過以上兩種處理之后,則滿足了數(shù)據(jù)應(yīng)用的標準,可以進行下一步使用了。這便是“數(shù)據(jù)生產(chǎn)鏈”中“數(shù)據(jù)標準化”工作的意義與常見的方法。希望對各位理解數(shù)據(jù)工作的具體內(nèi)容有所幫助。
本文由 @maggieC 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
- 目前還沒評論,等你發(fā)揮!