數(shù)據(jù)分析:員工離職預(yù)測分析

8 評論 19285 瀏覽 67 收藏 13 分鐘

本文作者用數(shù)據(jù)分析法對一家公司的員工離職原因展開了分析預(yù)測,與大家分享。

一、概述

  1. 項目數(shù)據(jù)來源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
  2. 數(shù)據(jù)分析工具:本次案在例中,我所需要做的便是通過已有的信息進行預(yù)測員工未來的動向,即判斷該員工未來是否會離職。其中訓練數(shù)據(jù)主要包括1100條記錄,31個字段。此次數(shù)據(jù)分析所用到的工具有:excel,tableau

二、數(shù)據(jù)分析基本步驟

(1)明確業(yè)務(wù)需求;

(2)數(shù)據(jù)采集 ;

(3)數(shù)據(jù)處理

(4)數(shù)據(jù)探索分析(數(shù)據(jù)的描述性分析);

(5)綜合數(shù)據(jù)分析;

1. 明確業(yè)務(wù)需求

面對公司留不住人,人員流動大等問題,本文對取自于“阿里天池”關(guān)于職工數(shù)據(jù)集的數(shù)據(jù)進行分析,挖掘出哪些數(shù)據(jù)對于離職率有貢獻,預(yù)測哪些人最后會流動。

2. 數(shù)據(jù)采集

項目數(shù)據(jù)集取自“阿里天池”,相關(guān)網(wǎng)址鏈接請參看概述。其中訓練數(shù)據(jù)主要包括1100條記錄,31個字段。主要字段說明如下:

(1)Age:員工年齡(1表示已經(jīng)離職,2表示未離職,這是目標預(yù)測值)

(2)Attrition:員工是否已經(jīng)離職(Non-Travel表示不出差,Travel_Rarely表示不經(jīng)常出差,Travel_Frequently表示經(jīng)常出差)

(3)BusinessTravel:商務(wù)差旅頻率(Sales表示銷售部,Research & Development表示研發(fā)部,Human Resources表示人力資源部)

(4)Department:員工所在部門(Sales表示銷售部,Research & Development表示研發(fā)部,Human Resources表示人力資源部)

(5)DistanceFromHome:公司跟家庭住址的距離,(從1到29,1表示最近,29表示最遠)

(6)Education:員工的教育程度(從1到5,5表示教育程度最高)

(7)EducationField:員工所學習的專業(yè)領(lǐng)域(Life Sciences表示生命科學,Medical表示醫(yī)療,Marketing表示市場營銷,Technical Degree表示技術(shù)學位,Human Resources表示人力資源,Other表示其他)

(8)EmployeeNumber:員工號碼;

(9)EnvironmentSatisfaction:員工對于工作環(huán)境的滿意程度(從1到4,1的滿意程度最低,4的滿意程度最高)

(10)Gender:員工性別(Male表示男性,F(xiàn)emale表示女性);

(11)JobInvolvement:員工工作投入度(從1到4,1為投入度最低,4為投入度最高)

(12)JobLevel:職業(yè)級別(從1到5,1為最低級別,5為最高級別)

(13)JobRole:工作角色 (Sales Executive是銷售主管,Research Scientist是科學研究員,Laboratory Technician實驗室技術(shù)員,Manufacturing Director是制造總監(jiān),Healthcare Representative是醫(yī)療代表,Manager是經(jīng)理,Sales Representative是銷售代表,Research Director是研究總監(jiān),Human Resources是人力資源)

(14)JobSatisfaction:工作滿意度(從1到4,1代表滿意程度最低,4代表滿意程度最高)

(15)MaritalStatus:員工婚姻狀況(Single代表單身,Married代表已婚,Divorced代表離婚)

(16)MonthlyIncome:員工月收入(范圍在1009到19999之間)

(17)NumCompaniesWorked:員工曾經(jīng)工作過的公司數(shù)

(18)Over18:年齡是否超過18歲

(19)OverTime:是否加班(Yes表示加班,No表示不加班)

(20)PercentSalaryHike:工資提高的百分比

(21)PerformanceRating:績效評估

(22)RelationshipSatisfaction:關(guān)系滿意度(從1到4,1表示滿意度最低,4表示滿意度最高)

(23)StandardHours:標準工時

(24)StockOptionLevel:股票期權(quán)水平

(25)TotalWorkingYears:總工齡

(26)TrainingTimesLastYear:上一年的培訓時長(從0到6,0表示沒有培訓,6表示培訓時間最長)

(27)WorkLifeBalance:工作與生活平衡程度(從1到4,1表示平衡程度最低,4表示平衡程度最高)

(28)YearsAtCompany:在目前公司工作年數(shù)

(29)YearsInCurrentRole:在目前工作職責的工作年數(shù)

(30)YearsSinceLastPromotion:距離上次升職時長

(31)YearsWithCurrManager:跟目前的管理者共事年數(shù)

3. 數(shù)據(jù)清洗

  1. 我們使用的數(shù)據(jù)是excel文件格式,其中自變量30個,因變量為1個(是否離職)。
  2. 數(shù)據(jù)集字符型字段有7個(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)數(shù)值型字段有24個。
  3. 其中將單一變量刪除(年滿18歲、標準工時、員工編號為常量),部分數(shù)值變量<=3的字段也刪除,此類數(shù)據(jù)對于分析預(yù)測不具有代表性。
  4. 同時觀察數(shù)據(jù),針對字段值不滿一年的數(shù)據(jù)均用0代替,沒有缺失值, 因此不用處理缺失值.
  5. 對于記錄來說, 其沒有唯一標識的字段, 因此會存在重復記錄, 這里采取“重復值處理”和“數(shù)據(jù)一致化”處理;
  6. 通過tableau作圖觀察各自變量對是否離職影響程度大小,

圖一:刪除單一變量&常量

4. 數(shù)據(jù)理解

我們使用的數(shù)據(jù)是EXCEL數(shù)據(jù)文件格式,其中自變量30個,因變量為是否離職。下表對所有變量進行了說明,以便更好的理解數(shù)據(jù)。

5. 數(shù)據(jù)探索性分析

(1)人力資源總體情況

離職人員178人,占比16.18%;在職人員922人,占比83.82%


(2)職工年齡,性別與是否離職的關(guān)系

由下圖可以看出,離職人員偏年輕化,峰值出現(xiàn)在28-32歲,其中男性離職人數(shù)大于女性人數(shù)。


(3)職工婚況,離家距離與是否離職的關(guān)系

由下圖可以看出,Married人士在公司最多,其次是Single人士,再就是Divorced人士,其中離職人數(shù)最多的為單身人士;同時從”公司離家距離“這個維度來看,公司離家距離的遠近對離職存在影響,且對單身人士影響較大。


(4)加班,月工資收入與是否離職的關(guān)系

由下圖可以看出,需要加班對職工的離職影響更高,月工資收入在3k(含)以下的對職工離職影響更高。


(5)商務(wù)差旅頻率,工作平衡度與是否離職的關(guān)系

如下圖,商務(wù)差旅數(shù)次數(shù)的增多對職工離職的影響也隨之增大,其中針對商旅次數(shù)多的職工來講,工作平衡大致2-3分占多數(shù),故工作平衡度也影響職工的離職。


(6)工資提高百分比與是否離職的關(guān)系圖

如下圖,工資提高百分比為12%-14%的職工占主體,且該部分離職員工最多,其次是是提薪10%-12%的職工,說明提薪對于職工離職有較大影響。


(7)工作環(huán)境滿意程度與是否離職的關(guān)系

如下圖,就中位數(shù)而言, 離職人員與在職人員對公司滿意度都為3, 且離職人員對公司滿意度整體波動較大,離職人員中有對環(huán)境滿意度為1的員工,工作環(huán)境對職工離職有較小影響。


(8)工作滿意度與是否離職的關(guān)系

如圖,就中位數(shù)而言, 離職人員對工作的滿意度相對較低為2.5,從中位數(shù)與第一四分位的差值來看,普遍離職人員對于工作滿意度較低,離職人員中有對工作滿意度為1的員工。


(9)在公司工作年數(shù), 在目前工作職責的工作年數(shù), 距離上次升職時長, 與目前的管理者共事年數(shù)與是否離職的關(guān)系圖

如下如所示:

1)可以看出離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工。

2)可以看出在目前工作職責的工作年數(shù)為1年內(nèi),2年的職工離職占比最高

3)而距離上次升職時長為1年內(nèi)的職工離職率最高,占全體職工的8%,離職率呈現(xiàn)隨時間遞減的趨勢。

4)最后,與目前的管理者共事年數(shù)為1年內(nèi)的職工離職率最高,其次是共事2年的職工。

綜上所訴:公司新員工的離職率較高。

(10)員工所學習的專業(yè)領(lǐng)域與是否離職的關(guān)系

如下圖,公司學員專業(yè)領(lǐng)域以“生命科學專業(yè)”人數(shù)占比最高占42%,,同時其離職占比也最高為6%,其次就是“醫(yī)學專業(yè)”。

06 數(shù)據(jù)分析

綜合分析:該企業(yè)的離職人員特征包括入職時間較短,偏年輕化,男性稍多,單身,月收入較低,加班等。

注:本文借鑒CSDN博主「玻_璃_球」的原創(chuàng)文章

原文鏈接:https://blog.csdn.net/weixin_45547023/article/details/101151646

 

本文由 @茶南zz 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 「離職人員占比較高的為在公司工作年限為1,5年的職工,其次就是2,3年的職工?!?br /> 如果工作一年的員工占比最高,那離職占比高也很正常

    來自北京 回復
  2. 員工離職,80%的原因與主管的管理有直接關(guān)系.

    回復
  3. 可以直接用回歸模型預(yù)測,看看是哪個變量影響更大

    回復
    1. 當然是用樹模型,回歸模型只能局限于捕捉線性關(guān)系。

      來自北京 回復
    2. 用什么樹模型 決策樹嗎

      來自北京 回復
  4. 文中只把某一兩個變量單獨拿出來分析與因變量的關(guān)系,從而得出“該企業(yè)的離職人員特征包括入職時間較短,偏年輕化,男性稍多,單身,月收入較低,加班等”的結(jié)論。但其實自變量之間的相關(guān)性是非常強的,年輕的員工單身的比例更高,入職時間也相對較短,所以導致月收入較低,也更傾向于加班。所以到底是年輕導致了較高的離職率,還是月收入低導致了較高的離職率呢?哪個是最重要最根本的因素而其他的自變量只是附帶效果?單純畫圖看數(shù)據(jù)分布的話并不能得出一些對企業(yè)真正有用的結(jié)論和商業(yè)建議。作者可以考慮下causal analysis。如有說得不當之處敬請指正!

    來自廣東 回復
    1. 作者只是在打天池,如果需要看causal的話,就只能用實驗設(shè)計了。他探索性做的還不錯,不過我個人意見和您一樣,作者單純從描述性分析就能下結(jié)論這一方面確實欠妥

      來自北京 回復
    2. 不應(yīng)該先用主成分降維在做關(guān)聯(lián)分析么

      來自北京 回復