數(shù)據(jù)產(chǎn)品經(jīng)理必備技能之工具篇

4 評論 43657 瀏覽 376 收藏 10 分鐘

“工欲善其事,必先利其器”,作為一名數(shù)據(jù)產(chǎn)品經(jīng)理,不論是做數(shù)據(jù)分析,還是搭建數(shù)據(jù)平臺,你必須要掌握很多工具,這樣才能得心應(yīng)手。下面,將從簡單的 Excel 說起,到R,再到數(shù)據(jù)平臺需要的工具和技術(shù),由易到難,幫你在工具上全方位掌握數(shù)據(jù)產(chǎn)品經(jīng)理的必備技能。

數(shù)據(jù)分析利器—Excel

相信每個(gè)人都會(huì)用一些 Excel的簡單功能,可是,作為一名數(shù)據(jù)產(chǎn)品經(jīng)理,僅僅掌握這些功能是不能滿足大數(shù)據(jù)量分析需求的。首先你要掌握以下一些常用函數(shù):

  • 日期函數(shù):day,month,year,date,today,weekday,weeknum
  • 數(shù)學(xué)函數(shù):product,rand,round,sum,sumif,sumproduct
  • 統(tǒng)計(jì)函數(shù):large,small,max,min,rank,count,countif,average,averageif
  • 查找和引用函數(shù):choose,match,index,column,row,vlookup,hlookup,lookup,offset
  • 文本函數(shù):find,search,text,value,left,right,mid,len
  • 邏輯函數(shù):and,or,if,false,true

掌握了這些函數(shù),就可以對經(jīng)常分析的業(yè)務(wù)建立一個(gè)數(shù)據(jù)模板,例如業(yè)務(wù)大盤日報(bào),這樣就省去了手動(dòng)計(jì)算大量數(shù)據(jù)的麻煩,根據(jù)模板自動(dòng)更新新增數(shù)據(jù),直接顯示結(jié)果。

接下來說一下Excel數(shù)據(jù)分析非常好用的另一個(gè)利器—數(shù)據(jù)透視表,它可以快速的把大量數(shù)據(jù)生成可以分析和展現(xiàn)的報(bào)表,而且可以隨意組織選擇各種維度和值,就像一個(gè)魔方,你可以自由組合查看不同角度的不同結(jié)果,它把復(fù)雜的公式轉(zhuǎn)化成了簡單的數(shù)據(jù)分析,非常實(shí)用易上手。通過數(shù)據(jù)透視表,你可以實(shí)現(xiàn)以下幾種功能:

  • 自動(dòng)計(jì)算分類間的數(shù)據(jù)匯總,計(jì)數(shù),最大值,最小值,平均值等。
  • 自動(dòng)排序、分組以及分組。
  • 分析環(huán)比、同比、定基比等。
  • 根據(jù)業(yè)務(wù)邏輯進(jìn)行個(gè)性化分析。

數(shù)據(jù)分析及可視化強(qiáng)大語言—R

R是一種為統(tǒng)計(jì)計(jì)算和繪圖而生的語言和環(huán)境,它是一套開源的數(shù)據(jù)分析解決方案。其功能包括:數(shù)據(jù)存儲(chǔ)和處理系統(tǒng);數(shù)組運(yùn)算工具(其向量、矩陣運(yùn)算方面功能尤其強(qiáng)大);完整連貫的統(tǒng)計(jì)分析工具;優(yōu)秀的統(tǒng)計(jì)制圖功能;簡便而強(qiáng)大的編程語言:可操縱數(shù)據(jù)的輸入和輸入,可實(shí)現(xiàn)分支、循環(huán),用戶可自定義功能 。

與其說R是一種統(tǒng)計(jì)軟件,還不如說R是一種數(shù)學(xué)計(jì)算的環(huán)境,因?yàn)镽并不是僅僅提供若干統(tǒng)計(jì)程序、使用者只需指定數(shù)據(jù)庫和若干參數(shù)便可進(jìn)行一個(gè)統(tǒng)計(jì)分析。

R的思想是:它可以提供一些集成的統(tǒng)計(jì)工具,但更大量的是它提供各種數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù),從而使使用者能靈活機(jī)動(dòng)的進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。 R內(nèi)建多種統(tǒng)計(jì)學(xué)及數(shù)字分析功能。

R其實(shí)還是一個(gè)蠻專業(yè)的一個(gè)工具,要想了解更多的R語言知識,可以去官網(wǎng) http://www.rproject.cn/ 下載安裝程序和資料進(jìn)行深入學(xué)習(xí)。

搭建數(shù)據(jù)平臺必備—Hadoop

Hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),現(xiàn)在被廣泛的應(yīng)用于大數(shù)據(jù)平臺的開發(fā)中,對處理海量數(shù)據(jù),有著其他技術(shù)無可匹敵的優(yōu)勢。

Google File System、Map-Reduce與BigTable被譽(yù)為分布式計(jì)算的三駕馬車,其中 Google File System用來解決數(shù)據(jù)存儲(chǔ)的問題,采用N多臺廉價(jià)的電腦,使用冗余的方式,來取得讀寫速度與數(shù)據(jù)安全并存的結(jié)果。 Map-Reduce說白了就是函數(shù)式編程,把所有的函數(shù)都分為兩類,Map和Reduce,Map用來將數(shù)據(jù)分成多份,分開處理,Reduce將處理的結(jié)果進(jìn)行歸并,得到最終的結(jié)果。 BigTable是在分布式系統(tǒng)上存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)的一個(gè)解決方案,解決了巨大的Table的管理、負(fù)載均衡的問題。

下面兩張圖有助于從大致框架和結(jié)構(gòu)上理解Hadoop。

QQ截圖20161124225222

Hadoop體系架構(gòu)

QQ截圖20161124225333

Hadoop核心設(shè)計(jì)

除了Hadoop體系架構(gòu)那些基礎(chǔ)工具外,數(shù)據(jù)產(chǎn)品經(jīng)理還需要對以下幾個(gè)基礎(chǔ)工具做一些了解。

  • ELASTIC SEARCH:基于Lucene的搜索服務(wù)器。提供了一個(gè)分布式多用戶能力的全文搜索引擎,基于RESTful web接口。Elasticsearch作為Apache許可條款下的開放源碼發(fā)布,是當(dāng)前流行的企業(yè)級搜索引擎。設(shè)計(jì)用于云計(jì)算中,能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速,安裝使用方便。
  • Memcached:Memcached 是一個(gè)高性能的分布式內(nèi)存對象緩存系統(tǒng),用于動(dòng)態(tài)Web應(yīng)用以減輕數(shù)據(jù)庫負(fù)載。它通過在內(nèi)存中緩存數(shù)據(jù)和對象來減少讀取數(shù)據(jù)庫的次數(shù),從而提高動(dòng)態(tài)、數(shù)據(jù)庫驅(qū)動(dòng)網(wǎng)站的速度。一般的使用目的是,通過緩存數(shù)據(jù)庫查詢結(jié)果,減少數(shù)據(jù)庫訪問次數(shù),以提高動(dòng)態(tài)Web應(yīng)用的速度、提高可擴(kuò)展。
  • Redis:開源的使用ANSI C語言編寫、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型、Key-Value數(shù)據(jù)庫,并提供多種語言的API。 為了保證效率,數(shù)據(jù)都是緩存在內(nèi)存中,區(qū)別的是Redis會(huì)周期性的把更新的數(shù)據(jù)寫入磁盤或者把修改操作寫入追加的記錄文件,并且在此基礎(chǔ)上實(shí)現(xiàn)了主從同步。 Redis的出現(xiàn),很大程度補(bǔ)償了Memcached這類key/value存儲(chǔ)的不足,在部分場合可以對關(guān)系數(shù)據(jù)庫起到很好的補(bǔ)充作用。
  • Kafka:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它可以處理消費(fèi)者規(guī)模的網(wǎng)站中的所有動(dòng)作流數(shù)據(jù)。 這種動(dòng)作(網(wǎng)頁瀏覽,搜索和其他用戶的行動(dòng))是在現(xiàn)代網(wǎng)絡(luò)上的許多社會(huì)功能的一個(gè)關(guān)鍵因素。 這些數(shù)據(jù)通常是由于吞吐量的要求而通過處理日志和日志聚合來解決。 對于像Hadoop的一樣的日志數(shù)據(jù)和離線分析系統(tǒng),但又要求實(shí)時(shí)處理的限制,這是一個(gè)可行的解決方案。

Kafka集群可以在一個(gè)指定的時(shí)間內(nèi)保持所有發(fā)布上來的消息,不管這些消息有沒有被消費(fèi)。打個(gè)比方,如果這個(gè)時(shí)間設(shè)置為兩天,那么在消息發(fā)布的兩天以內(nèi),這條消息都是可以被消費(fèi)的,但是在兩天后,這條消息就會(huì)被系統(tǒng)丟棄以釋放空間。Kafka的性能不會(huì)受數(shù)據(jù)量的大小影響,因此保持大量的數(shù)據(jù)不是一個(gè)問題。

  • Storm:Storm是分布式數(shù)據(jù)處理的框架,本身幾乎不提供復(fù)雜事件計(jì)算。Storm用于實(shí)時(shí)處理,就好比 Hadoop 用于批處理。Storm保證每個(gè)消息都會(huì)得到處理,而且它在一個(gè)小集群中,每秒可以處理數(shù)以百萬計(jì)的消息。

Storm 應(yīng)用領(lǐng)域包括實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、信息流處理(例如,可以使用Storm 處理新的數(shù)據(jù)和快速更新數(shù)據(jù)庫)、連續(xù)性的計(jì)算(例如,使用Storm 連續(xù)查詢,然后將結(jié)果返回給客戶端,如將微博上的熱門話題轉(zhuǎn)發(fā)給用戶)、分布式RPC(遠(yuǎn)過程調(diào)用協(xié)議,通過網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請求服務(wù))、ETL(Extraction Transformation Loading,數(shù)據(jù)抽取、轉(zhuǎn)換和加載)等。

相信掌握了上面提到的常用工具后,無論是數(shù)據(jù)分析,還是大數(shù)據(jù)平臺的打架,都能夠很快很容易的上手,同時(shí)在數(shù)據(jù)產(chǎn)品經(jīng)理的成長道路上又邁出一大步。

 

本文由 @徐鵬 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 應(yīng)該備注內(nèi)容來自《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》

    回復(fù)
  2. 我覺得知道這些技術(shù)和框架是干嘛的、有啥用、有啥限制就行,無需到會(huì)用的程度,你是產(chǎn)品,不是開發(fā),不要本末倒置。

    來自浙江 回復(fù)
  3. 大家期待已久的《數(shù)據(jù)產(chǎn)品經(jīng)理實(shí)戰(zhàn)訓(xùn)練營》終于上線啦!

    本課程非常適合新手?jǐn)?shù)據(jù)產(chǎn)品經(jīng)理,或者想要轉(zhuǎn)崗的產(chǎn)品經(jīng)理、數(shù)據(jù)分析師、研發(fā)、產(chǎn)品運(yùn)營等人群。

    課程會(huì)從基礎(chǔ)概念,到核心技能,再通過典型數(shù)據(jù)分析平臺的實(shí)戰(zhàn),幫助大家構(gòu)建完整的知識體系,掌握數(shù)據(jù)產(chǎn)品經(jīng)理的基本功。

    學(xué)完后你會(huì)掌握怎么建指標(biāo)體系、指標(biāo)字典,如何設(shè)計(jì)數(shù)據(jù)埋點(diǎn)、保證數(shù)據(jù)質(zhì)量,規(guī)劃大數(shù)據(jù)分析平臺等實(shí)際工作技能~

    現(xiàn)在就添加空空老師(微信id:anne012520),咨詢課程詳情并領(lǐng)取福利優(yōu)惠吧!

    來自廣東 回復(fù)
  4. 哇,這些工具你都會(huì)使用嗎?

    來自廣東 回復(fù)