如何七周成為數(shù)據(jù)分析師13:解鎖數(shù)據(jù)分析的正確姿勢(下)

3 評論 19608 瀏覽 76 收藏 12 分鐘

本文是《如何七周成為數(shù)據(jù)分析師》的第十三篇教程,如果想要了解寫作初衷,可以先行閱讀七周指南。溫馨提示:如果您已經(jīng)熟悉統(tǒng)計學,大可不必再看這篇文章,或只挑選部分。

描述統(tǒng)計學,往往研究數(shù)據(jù)的集中和離散。其中,各數(shù)據(jù)出現(xiàn)次數(shù)的情況,也是重要的一個研究方向。

頻數(shù)分布表示互不重疊的組別中每一組項目的個數(shù)。在分類型數(shù)據(jù)中,頻數(shù)分布就是各個分類類目的總數(shù)。

Clipboard Image.png

上圖就是數(shù)據(jù)分析師的崗位,按城市統(tǒng)計出的頻數(shù)表,即各個城市的崗位數(shù)量。從應用角度看,數(shù)據(jù)透視表是專門用來計算頻數(shù)的。我們也能把頻數(shù)轉(zhuǎn)換成百分比占比,這更直觀。

如果將其轉(zhuǎn)換成圖表,叫做條形圖。餅圖也可以描述頻數(shù),但是不常用。

Clipboard Image.png

數(shù)值型數(shù)據(jù)也適用于頻數(shù)分布。以薪資數(shù)據(jù)為例,因為薪資千差萬別,若粗暴地轉(zhuǎn)換成條形圖,就會喪失可讀性。

數(shù)值型數(shù)據(jù)必須經(jīng)過分組轉(zhuǎn)換,將數(shù)據(jù)劃分到一個個區(qū)間范圍內(nèi),可以間接認為把數(shù)值其轉(zhuǎn)換成了分類數(shù)據(jù)。從業(yè)務角度理解,18和18.1、17.9的差異并不大,為什么不視為一組呢?

組數(shù)劃分一般選擇5~20組,數(shù)據(jù)量越大,劃分的組數(shù)就能越多。劃分的不同區(qū)間范圍叫做組寬,組寬是人為定義的,組寬最好等距。用1~80與81~100計算兩組的頻數(shù),沒什么意義。

組寬和組數(shù)的選擇相輔相成,組數(shù)多,組寬相對小,反之亦然。組寬=(最大值-最小值)/組數(shù)。我們將案例數(shù)據(jù)的組寬定義為5,即0~4,5~9,10~14……

用Excel函數(shù) = int(( salary +1)/5)即可正確獲得分組后的結(jié)果,0代表0~4,1代表5~9。另外一種方式是用frequency( )函數(shù),以數(shù)組形式輸出。數(shù)據(jù)分析工具也能繪制頻數(shù)表。

Clipboard Image.png

因為每一個數(shù)據(jù)只能屬于一個組,所以要規(guī)定組的上下限。上文劃歸的0~4組寬,實際是零到除五之間的數(shù)值,包括4.99這類。因為數(shù)值型數(shù)據(jù)可以連續(xù)地劃分,分類數(shù)據(jù)沒有這顧慮。

分組的過程也叫數(shù)據(jù)分桶bin,它是常見的一種數(shù)據(jù)清洗過程。在機器學習中,能提高模型泛化能力。

將匯總的結(jié)果生成條形圖,調(diào)整系列樣式,系列重疊和間隙寬度均為0。它的正式名字叫直方圖。

Clipboard Image.png

條形圖和直方圖最大的區(qū)別在于矩形的間隔。直方圖的矩形沒有間隔,之間完全重合(圖中的白線是為了顯示清楚才加上的)。因為數(shù)值型數(shù)據(jù)的特點是連續(xù)性,不能有空檔造成斷開。

圖中的直方圖并不標準,橫坐標的數(shù)字應該為[0,5,10,15,20…]且位于白線下方。我這里略過了。

頻數(shù)既能用相對數(shù)表示,也能用百分比表示。區(qū)別在于縱軸。后者用于方便對比。

直方圖的一個重要應用是提供了分布信息。不同直方圖代表的業(yè)務意義不同。需要注意的是,分組將直接影響直方圖的外形。

Clipboard Image.png

標準型的形態(tài)往往是中間高,兩邊低,呈中間的集中趨勢。它代表一種穩(wěn)定正常的形態(tài)。

Clipboard Image.png

雙峰型,一般是混合了多種數(shù)據(jù)源或者類別數(shù)據(jù)造成的。

Clipboard Image.png

鋸齒型,一般是觀察數(shù)據(jù)的手段和方法不穩(wěn)定,才會造成直方圖的波動。

Clipboard Image.png

孤島型的直方圖,一般是業(yè)務上的非正常錯誤,比如工程零部件出了問題、產(chǎn)品出現(xiàn)了某Bug,造成凸出一塊。

Clipboard Image.png

陡峭型,往往是數(shù)據(jù)源缺失,或者被剔除一部分后,造成這種斷崖式的折斷。

Clipboard Image.png

偏峰型,分為左偏峰和右偏峰。我們也把它稱呼為偏態(tài),上圖是一個右偏態(tài)。

偏態(tài)是分布形態(tài)中的一種重要數(shù)值度量。很多數(shù)據(jù)并不呈現(xiàn)完全對稱的分布,比如中國工資。

在統(tǒng)計學上,眾數(shù)和平均數(shù)之差可作為偏態(tài)的劃分指標之一。如果平均數(shù)大于眾數(shù),稱為正偏態(tài)/左偏態(tài);相反,則稱為負偏態(tài)/右偏態(tài)。

為了更好的描述偏態(tài)的傾斜程度,我們引入偏態(tài)系數(shù)sk,sk=0時不偏不斜。另外還有一個峰度系數(shù)ku,描述分布的扁平瘦窄,ku以3為標準基準。兩者組合,當?sk=0,ku=3時,分布呈正態(tài);sk>0時,分布呈正偏態(tài),sk<0時,分布呈負偏態(tài);ku>3時曲線比較陡峭,ku<3時曲線比較平坦。

Clipboard Image.png

偏度和峰度的具體計算,用Excel的skew和kurt函數(shù)。數(shù)據(jù)分析庫的描述統(tǒng)計也行。

直方圖的左右偏度,對應著不同的業(yè)務場景。左偏的典型業(yè)務場景就是考試成績,大部分學生集中在60~90之間。而和錢有關的直方圖,基本是右偏,比如銷量、流水、消費等。

理論講完了,繼續(xù)用數(shù)據(jù)分析師的薪資實戰(zhàn),偷懶用python代碼完成了,Excel作圖真的很累的……

先觀察整體的直方圖,我們將其切分成二十組(和上文Excel圖表的差異在于組寬組限的變化)。

Clipboard Image.png

這個數(shù)據(jù)同時呈現(xiàn)了雙峰型和右偏型的分布。雙峰型可能是因為我們混合了一二三線城市的數(shù)據(jù),而右偏是因為薪資和錢有關,畢竟不是所有的數(shù)據(jù)分析師都能拿高薪。

單純過濾出北京的數(shù)據(jù)。

分布還是呈現(xiàn)亂七八糟的樣子,為什么呢?因為我們選取的薪資是網(wǎng)絡爬蟲獲取的薪資范圍求平均,并不是真實的水平(很多HR復制黏貼瞎設的),這是不可避免的誤差,那應該怎么辦呢?可以適當?shù)恼{(diào)整組數(shù)。

Clipboard Image.png

組數(shù)為十后,分布正常了不少(實際工作中,可以把極大值排除再做直方圖)。那么接下來進入分析的環(huán)節(jié),之前我們用了箱線圖,現(xiàn)在學習直方圖吧。它的奧秘也在于對比,通過對比不同的頻數(shù),獲得洞察。選擇北京和上??匆幌拢v軸改成百分比。

Clipboard Image.png

調(diào)成ggplot的色系更直觀一些,紅色代表北京,綠色代表上海。圖中明顯可以看出兩地在10~30之間的薪資差異。上海集中在10~20間,北京則是20~30區(qū)域更多。組數(shù)調(diào)大,可以分析地更細。

Clipboard Image.png

城市換成上海和深圳,則是另外一種解讀了。

到這里,描述統(tǒng)計的內(nèi)容就結(jié)束了。描述統(tǒng)計是分析數(shù)據(jù)的一種技巧,包含數(shù)據(jù)的集中度量(平均數(shù)、中位數(shù)、眾數(shù))、數(shù)據(jù)的離散(方差、標準差)、數(shù)據(jù)的分布(箱線圖、條形圖、直方圖)三塊。

希望大家養(yǎng)成使用描述統(tǒng)計的習慣,下一章,開始概率的世界:為什么你認為的,都是錯的。

相關閱讀

互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,需一份七周的提綱

如何七周成為數(shù)據(jù)分析師01:常見的Excel函數(shù)全部涵蓋在這里了

如何七周成為數(shù)據(jù)分析師02:Excel技巧大揭秘

如何七周成為數(shù)據(jù)分析師03:手把手教你Excel實戰(zhàn)

如何七周成為數(shù)據(jù)分析師:Excel技巧之甘特圖繪制(項目管理)

如何七周成為數(shù)據(jù)分析師:Excel技巧之打造多級菜單

如何七周成為數(shù)據(jù)分析師04:數(shù)據(jù)可視化之經(jīng)典圖表合集

如何七周成為數(shù)據(jù)分析師05:數(shù)據(jù)可視化之打造升職加薪的報表

如何七周成為數(shù)據(jù)分析師06:數(shù)據(jù)可視化之手把手打造BI

如何七周成為數(shù)據(jù)分析師07:快速掌握麥肯錫的分析思維

如何七周成為數(shù)據(jù)分析師08:如何建立數(shù)據(jù)分析的思維框架?

如何七周成為數(shù)據(jù)分析師09:寫給新人的數(shù)據(jù)庫指南

如何七周成為數(shù)據(jù)分析師10:SQL,從入門到熟練

如何七周成為數(shù)據(jù)分析師11:SQL,從熟練到掌握

如何七周成為數(shù)據(jù)分析師12:解鎖數(shù)據(jù)分析的正確姿勢(上)

#專欄作家#

秦路,微信公眾號ID:tracykanc,人人都是產(chǎn)品經(jīng)理專欄作家。

本文由 @秦路?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 右偏態(tài)是正偏態(tài)吧

    來自江蘇 回復
  2. 哈哈 看來沒有人堅持看完

    來自廣東 回復
    1. 必須得堅持看完

      來自江蘇 回復