這篇文章把數(shù)據(jù)講透了(四):數(shù)據(jù)挖掘

0 評論 6756 瀏覽 25 收藏 9 分鐘

編輯導(dǎo)讀:隨著“數(shù)智化”時代的到來,我們生活中的方方面面都離不開數(shù)據(jù),而你真的了解數(shù)據(jù)嗎?本文將為你重新解讀數(shù)據(jù)的概念和價值,以及數(shù)據(jù)的價值是如何在“數(shù)智化”時代下一步一步得到運用與升華的;因內(nèi)容頗多,筆者將分幾期為大家進行講解。

一、前言

上一期文章中,我們已經(jīng)了解到“數(shù)據(jù)”是一個龐大的體系(如下圖所示);并用了“洗菜、擇菜”的例子,為大家講解數(shù)據(jù)清洗的含義;而今天筆者主要給大家講解當凈菜備好后,如何對凈菜進行加工烹飪,讓它變成有價值、有意義的美味佳肴,即數(shù)據(jù)挖掘的過程。

二、數(shù)據(jù)挖掘(烹飪)

數(shù)據(jù)挖掘是對既定的“凈數(shù)據(jù)”進行加工利用的過程,我們可以把它看作是烹飪加工的過程。

而數(shù)據(jù)挖掘是有一定規(guī)則和相應(yīng)模型的,這一點我們也可以通過一個類比進行理解。

清洗后的高質(zhì)量數(shù)據(jù)就像是“凈菜”,而數(shù)據(jù)挖掘模型就像是各種“菜系”,我們知道,就算“凈菜”材料一致,但菜系(數(shù)據(jù)挖掘模型)不同,最終得到的成品也是截然不同的!

下面是數(shù)據(jù)挖掘中較為常見的幾個“菜系”(模型),下面我們配合模型對應(yīng)的使用場景逐一闡述

總的來說,數(shù)據(jù)挖掘模型可以通過“監(jiān)督模式”進行大致分類,分類為監(jiān)督模型、非監(jiān)督模型:

  • 監(jiān)督模型:簡單的說,就是讓機器學(xué)會舉一反三,它好比學(xué)生在學(xué)習時已知題目和答案,去學(xué)習分析如何解題一樣,下次遇到一樣的或者類似的題目就會做了;監(jiān)督模型內(nèi)的數(shù)據(jù)分為訓(xùn)練集和測試集,常見模型有決策樹、LOGISTIC線性回歸等。
  • 非監(jiān)督模型:簡單的說,就是略去了監(jiān)督模型中”舉一反三“的過程,輸入的僅僅是一堆數(shù)據(jù),沒有標簽,也沒有訓(xùn)練集和驗證集之分,讓算法根據(jù)數(shù)據(jù)本身的特征去學(xué)習,常見模型一般有clustering。

了解了數(shù)據(jù)挖掘的基本類別,下面我們來切入場景,看一看這些具體的算法模型如何幫助我們在現(xiàn)實場景中進行數(shù)據(jù)挖掘。

聚類分析——其中以K-Means算法最為典型。

原理與步驟:

  1. 選取K個中心點,代表K個類別;
  2. 計算N個樣本點和K個中心點之間的歐氏距離;
  3. 將每個樣本點劃分到最近的(歐氏距離最小的)中心點類別中——迭代1;
  4. 計算每個類別中樣本點的均值,得到K個均值,將K個均值作為新的中心點——迭代2;
  5. 重復(fù)234;
  6. 得到收斂后的K個中心點(中心點不再變化)——迭代4;

使用場景:商業(yè)領(lǐng)域,聚類分析常結(jié)合(RMF模型)被用來進行客戶細分;生科領(lǐng)域,聚類分析常被對動植物分類和基因進行分類,進行種群研究。

實操案例:運用K-Means算法對航空業(yè)客戶進行價值衡量和細分。

1. 參考RMF模型與數(shù)據(jù)集,自定義聚類類別

得到數(shù)據(jù)集后刪除不相關(guān)、弱相關(guān)或冗余屬性,如會員卡號、性別等,可以得到與RMF模型相關(guān)的5個屬性分別是:C(平均折扣率較高、倉位等級較高)、F(乘坐次數(shù))、M(總里程),R(最近乘坐航班)低、L(入會時長),我們根據(jù)屬性更夠?qū)蛻羧哼M行分類,鑒別出重要挽留客戶、重要保持客戶、低價值客戶等。

2. 已確定5個聚類類別,套入代碼進行聚類即可(代碼如下)

3. 針對結(jié)果進行可視化分析,并對每一個customer進行標識

回歸分析——具體分為兩大類(邏輯回歸、線性回歸)。

那么,有同學(xué)就會問了,邏輯回歸和線性回歸究竟有什么區(qū)別呢?

其實,兩者屬于同一個家族(廣義線性模型),但它們面向的因變量類型不同,邏輯回歸的因變量是分類變量(男女、職業(yè)…),線性回歸的因變量是連續(xù)型數(shù)字變量(如1000人的工資,單位元)。

實操演練:最小二乘法OLS回歸(屬于線性回歸的一種)——例如,下方,我們對工資與各項貸款余額的關(guān)系進行研究。

STEP1. 導(dǎo)入數(shù)據(jù)后,畫出散點圖,觀察數(shù)據(jù)大致趨勢,并畫擬合曲線:

  • x=data[‘各項貸款余額’]
  • y=data[‘工資’]
  • z1 = np.polyfit(x, y, 1) # 1表示用1次多項式擬合
  • p1 = np.poly1d(z1)#擬合方程
  • f=p1(x)
  • plt.scatter(data[‘各項貸款余額’],data[‘工資’])
  • plot2=plt.plot(x, f, ‘r’,label=’polyfit values’)#畫擬合線

STEP2. 導(dǎo)出相關(guān)回歸數(shù)據(jù)參考指標,如擬合R方(越接近1越好,一般來說0.7以上已經(jīng)算相關(guān)性比較強,擬合效果較好)、P值(一般情況<0.05為理想擬合)等,對回歸方程進行檢驗。

綜上,我們可以得到Y(jié)(工資)=0.0379X(各項貸款余額)-0.8295。

三、結(jié)語

本期,筆者通過一個“烹飪和菜系”的例子,帶著大家了解了數(shù)據(jù)挖掘的常用模型,相信大家有所收獲!

下期,筆者將在數(shù)據(jù)挖掘的基礎(chǔ)上,講解數(shù)據(jù)可視化,看看我們?nèi)绾魏唵我锥陌褦?shù)據(jù)故事講懂、講透!

往期文章:

這篇文章把數(shù)據(jù)講透了(一):數(shù)據(jù)來源

這篇文章把數(shù)據(jù)講透了(二):數(shù)據(jù)采集

這篇文章把數(shù)據(jù)講透了(三):數(shù)據(jù)清洗

持續(xù)更新…

 

本文由 @小陳同學(xué)ing. 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!