大數(shù)據(jù)人才,到底應(yīng)具備哪些技能?
想成為大數(shù)據(jù)人才,究竟應(yīng)該具備哪些技能?這篇文章里,作者從數(shù)據(jù)分析流程、職業(yè)技能等維度做了相應(yīng)的分享,不妨一起來(lái)看看吧。
我是西索,最近這段時(shí)間,和幾個(gè)大廠的TL 做分析「價(jià)值」方面的探討,在大數(shù)據(jù)時(shí)代要怎么才能發(fā)揮更高的數(shù)據(jù)價(jià)值,剛好涉及到這部分的討論,把討論結(jié)果做個(gè)分享,供同行參考。
這幾年聽(tīng)到最多的一個(gè)聲音,我們要開(kāi)始“卷”價(jià)值了。那么“你的價(jià)值體現(xiàn)是什么?”、“當(dāng)前還有多少價(jià)值可以做”、“接下來(lái)我們要?jiǎng)?chuàng)造什么價(jià)值”…
一、認(rèn)識(shí)數(shù)據(jù)分析流程
對(duì)于剛?cè)胄械耐瑢W(xué)來(lái)說(shuō),需要了解大數(shù)據(jù)分析過(guò)程中涉及到的流程和環(huán)節(jié),再結(jié)合大數(shù)據(jù)的要素進(jìn)行能力拆解。
二、認(rèn)識(shí)大數(shù)據(jù),不得不了解的4V特性
數(shù)據(jù)分析和大數(shù)據(jù)分析,原始數(shù)據(jù)量大小不同,導(dǎo)致處理方式的不同。
大數(shù)據(jù)分析,主要是利用各種類型的全量數(shù)據(jù)(不是抽樣數(shù)據(jù)),設(shè)計(jì)統(tǒng)計(jì)方案,得到兼具細(xì)致和置信的統(tǒng)計(jì)結(jié)論。在做大規(guī)模數(shù)據(jù)處理的時(shí)候,天然存在很多技術(shù)壁壘,必須要用專業(yè)的軟件才能解決,還需要兼顧運(yùn)算時(shí)效、計(jì)算性能、運(yùn)行成本、數(shù)據(jù)加工技巧等等。
1. 認(rèn)識(shí)大數(shù)據(jù)架構(gòu)能力
以下是一個(gè)比較典型的大數(shù)據(jù)架構(gòu):
了解大數(shù)據(jù)平臺(tái)的底層構(gòu)成,增加對(duì)工具的認(rèn)知,了解不同產(chǎn)品之間的共性和差異性,在真實(shí)建設(shè)場(chǎng)景中才能做好針對(duì)性的方案設(shè)計(jì)。
大數(shù)據(jù)平臺(tái)、關(guān)系型數(shù)據(jù)庫(kù)vs非結(jié)構(gòu)式數(shù)據(jù)庫(kù)、實(shí)時(shí)數(shù)據(jù)vs離線數(shù)據(jù)、數(shù)據(jù)調(diào)度工具。
2. 認(rèn)識(shí)大數(shù)據(jù)指標(biāo)體系
因?yàn)榇髷?shù)據(jù)的體量很大,為了快速拿到想要的數(shù)據(jù)結(jié)果,就不得不提「數(shù)據(jù)指標(biāo)體系」。指標(biāo)體系的搭建分為兩大步驟:設(shè)計(jì)指標(biāo)體系和落地指標(biāo)體系。
3. 認(rèn)識(shí)大數(shù)據(jù)指標(biāo)體系
關(guān)于大數(shù)據(jù)工具的介紹,可以參考這篇文章:大數(shù)據(jù)常用工具集合。
三、做好大數(shù)據(jù)需要儲(chǔ)備的職業(yè)技能
我們把職業(yè)技能劃分為顯性和隱性兩個(gè)方面,從大數(shù)據(jù)各種崗位的job model中可以抽象成為集中能力,見(jiàn)下圖:
1. 必知的管理方法論
在職場(chǎng)中我們會(huì)接觸到很多「管理」內(nèi)容,向上管理、向下管理、項(xiàng)目管理、團(tuán)隊(duì)管理、需求管理等,提升自己的管理軟實(shí)力,加強(qiáng)管理方法的意識(shí)塑造,是拉開(kāi)職場(chǎng)核心競(jìng)爭(zhēng)力的關(guān)鍵所在。
2. 常用的統(tǒng)計(jì)學(xué)知識(shí)
分析過(guò)程可能是做一些探索性數(shù)據(jù)分析、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)建模,甚至是做AB測(cè)試實(shí)驗(yàn),最終交付分析報(bào)告。數(shù)據(jù)分析離不開(kāi)統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué),以下羅列了日常過(guò)程中經(jīng)常用到的統(tǒng)計(jì)方法。
3. 重要的商分類知識(shí)
“無(wú)場(chǎng)景不分析”、“脫離業(yè)務(wù)場(chǎng)景的分析都是耍流氓”等資深數(shù)據(jù)分析師的建議無(wú)不說(shuō)明業(yè)務(wù)場(chǎng)景的重要性,數(shù)據(jù)分析在不同場(chǎng)景下,也有不同的“分析”招式來(lái)滿足不同的業(yè)務(wù)需求,熟悉下面的商業(yè)分析模型有助于建立業(yè)務(wù)信賴。
4. 掌握的算法類模型
有監(jiān)督模型,對(duì)于企業(yè)銷售的預(yù)測(cè)、還是對(duì)用戶行為的預(yù)測(cè),都能幫助提升業(yè)務(wù)效率。比如常見(jiàn)的預(yù)測(cè)用戶流失分析,及時(shí)得到高概率流失的人群名單,運(yùn)營(yíng)通過(guò)提前營(yíng)銷干預(yù),提高用戶留存率。
無(wú)監(jiān)督模型,可以應(yīng)對(duì)未知模式的分析。譬如,不知道應(yīng)該把現(xiàn)有人群分成多少個(gè)組來(lái)進(jìn)行營(yíng)銷最合適,就可以對(duì)人群基于核心特征做無(wú)監(jiān)督的聚類分析,得出有效分組的界限。
5. 機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法
幾個(gè)基礎(chǔ)概念:
- 數(shù)據(jù)集合:訓(xùn)練集、測(cè)試集、驗(yàn)證集;
- 數(shù)據(jù)檢查:描述性統(tǒng)計(jì)(最大、最小、中位數(shù)、眾數(shù)、四分位)、缺省值填充、卡方分布;
- 數(shù)據(jù)校驗(yàn):共軛線性、相關(guān)系數(shù)(Pearson Correlation Coefficient);
- 特征工程:什么是特征工程、特征工程構(gòu)建、特征工程權(quán)重查看、特征選擇(filter/Wrapper/Embedded)
- 歸一化:虛擬變量,labelEncoder/OneHotEncoder/get_dummies;此外可以參考核函數(shù)構(gòu)建方法,通過(guò)log、ln、e的方式構(gòu)建,縮小極大值之間的數(shù)據(jù)離散度;
- 數(shù)據(jù)標(biāo)準(zhǔn)化:z-score、max-min scaling;
- 算法校驗(yàn):卡方校驗(yàn)、5-fold、
機(jī)器學(xué)習(xí):
知識(shí)重點(diǎn):距離、信息熵、梯度、L1/L2、魯棒性(穩(wěn)定性)。
L1-曼哈頓(絕對(duì)值相加,不唯一解)、L2-歐氏距離(歐幾里得距離之和,平方和,唯一解)。
無(wú)監(jiān)督學(xué)習(xí):
聚類(cluster):k-means、cart(核心是距離-歐式/馬氏/曼哈頓/切比雪夫,高斯密度/正態(tài)分布)。
半監(jiān)督學(xué)習(xí):
監(jiān)督學(xué)習(xí):
回歸(logistic):線性回歸、LR(ridge/lasso,L1/L2)、預(yù)測(cè)(Arima、prephet);
分類(classification):KNN、Decsion Tree、XGBoost、Random Forest、GBDT、SVM、Bayes。
深度學(xué)習(xí)
知識(shí)重點(diǎn):損失函數(shù)、核函數(shù)。
用途:文字識(shí)別、圖片識(shí)別、語(yǔ)音識(shí)別、視頻處理。
文本挖掘:
NLP:tf-idf、LDA、CBOW、word bag
目標(biāo)檢測(cè):
神經(jīng)網(wǎng)絡(luò):BP(CNN)、RNN、LSTM。
6. 數(shù)據(jù)可視化的能力
圖表是數(shù)據(jù)可視化的常用表現(xiàn)形式,是對(duì)數(shù)據(jù)的二次加工,可以幫助我們理解數(shù)據(jù)、洞悉數(shù)據(jù)背后的真相,讓我們更好地適應(yīng)這個(gè)數(shù)據(jù)驅(qū)動(dòng)的世界。
四、擅長(zhǎng)的·愛(ài)好的·世界需要的
在布賴恩·費(fèi)瑟斯通豪《遠(yuǎn)見(jiàn):如何規(guī)劃職業(yè)生涯3大階段》一書(shū)中提到,你要不斷問(wèn)自己這三個(gè)問(wèn)題:我擅長(zhǎng)什么?我愛(ài)好什么?這個(gè)世界需要什么?三者交集的部分,找到自己的目標(biāo),當(dāng)前應(yīng)該做哪些方面的刻意練習(xí),強(qiáng)化優(yōu)勢(shì),用長(zhǎng)板補(bǔ)短板。
工作規(guī)劃,是結(jié)合公司整體方向而開(kāi)展的規(guī)劃過(guò)程;個(gè)人規(guī)劃,是結(jié)合個(gè)人職業(yè)發(fā)展而開(kāi)展的規(guī)劃過(guò)程;彼此之間的交集在于,如何通過(guò)規(guī)劃把兩個(gè)方面進(jìn)行融合!
而個(gè)人職業(yè)成長(zhǎng)旅程中有三個(gè)定位:崗位定位,管理定位,行業(yè)定位。
- 28歲前,用崗位專業(yè)定位自己,你干啥最專業(yè)?
- 32歲之前,用管理角色定位自己,你做項(xiàng)目、帶團(tuán)隊(duì)、搞運(yùn)營(yíng)的能力怎么樣?
- 38歲之前,用行業(yè)品類定位自己,你在哪一個(gè)行業(yè)領(lǐng)域做到了頂尖?
本文由 @鄭小柒是西索啊 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于CC0協(xié)議。
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!