互聯(lián)網(wǎng)數(shù)據(jù)分析能力的養(yǎng)成,需一份七周的提綱

65 評論 139805 瀏覽 1462 收藏 18 分鐘

寫這個系列,是希望在當初知乎某一個回答的基礎上,單獨完善出針對互聯(lián)網(wǎng)產(chǎn)品和運營們的教程。不論對數(shù)據(jù)分析或數(shù)據(jù)運營,我都希望它是一篇足夠好的教材。更準確地說,這是一份七周的互聯(lián)網(wǎng)數(shù)據(jù)分析能力養(yǎng)成提綱。

我會按照提綱針對性的增加互聯(lián)網(wǎng)側的內(nèi)容,比如網(wǎng)站分析,用戶行為序列等。我也不想留于表面,而是系統(tǒng)性講述。比如什么是產(chǎn)品埋點?在獲得埋點數(shù)據(jù)后,怎么利用Python / Pandas的shift ( )函數(shù)將其清洗為用戶行為session,進而計算出用戶在各頁面的停留時間,后續(xù)如何轉(zhuǎn)換成統(tǒng)計寬表,如何以此建立用戶標簽等。

下面是各周的學習概述。

第一周:Excel學習掌握

如果Excel玩的順溜,你可以略過這一周。不過介于我入行時也不會vlookup,所以有必要講下。

重點是了解各種函數(shù),包括但不限于sum,count,sumif,countif,find,if,left/right,時間轉(zhuǎn)換等。

Excel函數(shù)不需要學全,重要的是學會搜索。即如何將遇到的問題在搜索引擎上描述清楚。

我認為掌握vlookup和數(shù)據(jù)透視表足夠,是最具性價比的兩個技巧。

學會vlookup,SQL中的join,Python中的merge很容易理解。

學會數(shù)據(jù)透視表,SQL中的group,Python中的pivot_table也是同理。

這兩個搞定,基本10萬條以內(nèi)的數(shù)據(jù)統(tǒng)計沒啥難度,80%的辦公室白領都能秒殺。

Excel是熟能生巧,多找練習題。還有需要養(yǎng)成好習慣,不要合并單元格,不要過于花哨。表格按照原始數(shù)據(jù)(sheet1)、加工數(shù)據(jù)(sheet2),圖表(sheet3)的類型管理。

下面是為了以后更好的基礎而附加的學習任務:

  • 了解單元格格式,后期的數(shù)據(jù)類型包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 了解數(shù)組,以及怎么用(excel的數(shù)組挺難用),Python和R也會涉及到 list。
  • 了解函數(shù)和參數(shù),當進階為編程型的數(shù)據(jù)分析師時,會讓你更快的掌握。
  • 了解中文編碼,UTF8和ASCII,包括CSV的delimiter等,以后你會回來感謝我的。

這一周的內(nèi)容我會拆分成兩部分:函數(shù)篇和技巧篇。

這是一道練習題,我給你1000個身份證號碼,告訴我里面有多少男女,各省市人口的分布,這些人的年齡和星座。如果能完成上述過程,那么這一周就直接略過吧。(身份證號碼規(guī)律可以網(wǎng)上搜索)

第二周:數(shù)據(jù)可視化

數(shù)據(jù)分析界有一句經(jīng)典名言,字不如表,表不如圖。數(shù)據(jù)可視化是數(shù)據(jù)分析的主要方向之一。除掉數(shù)據(jù)挖掘這類高級分析,不少數(shù)據(jù)分析就是監(jiān)控數(shù)據(jù)觀察數(shù)據(jù)。

數(shù)據(jù)分析的最終都是要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰數(shù)據(jù)詳實的PPT給老板看。如果沒人認同分析結果,那么分析也不會被改進和優(yōu)化,不落地的數(shù)據(jù)分析價值又在哪里?

首先要了解常用的圖表:

0 (2)

Excel的圖表可以100%完成上面的圖形要求,但這只是基礎。后續(xù)的進階可視化,勢必要用到編程繪制。為什么?比如常見的多元分析,你能用Excel很輕松的完成?但是在IPython只需要一行代碼。

0 (1)

其次掌握BI,下圖是微軟的BI。

f3f96c223a492c62ce376544a7c2f0fd_b

BI(商業(yè)智能)和圖表的區(qū)別在于BI擅長交互和報表,更擅長解釋已經(jīng)發(fā)生和正在發(fā)生的數(shù)據(jù)。將要發(fā)生的數(shù)據(jù)是數(shù)據(jù)挖掘的方向。

BI的好處在于很大程度解放數(shù)據(jù)分析師的工作,推動全部門的數(shù)據(jù)意識,另外降低其他部門的數(shù)據(jù)需求(萬惡的導數(shù)據(jù))。

BI市面上的產(chǎn)品很多,基本都是建立儀表盤Dashboard,通過維度的聯(lián)動和鉆取,獲得可視化的分析。

最后需要學習可視化和信息圖的制作。

0

這是安(裝)身(逼)立(加)命(薪)之本。這和數(shù)據(jù)本事沒有多大關系,更看重審美、解讀、PPT、信息化的能力。但值得花一點時間去學習。

數(shù)據(jù)可視化的學習就是三個過程:

  • 了解數(shù)據(jù)(圖表)
  • 整合數(shù)據(jù)(BI)
  • 展示數(shù)據(jù)(信息化)

第三周:分析思維的訓練

這周輕松一下,學學理論知識。

好的數(shù)據(jù)分析首先要有結構化的思維,也就是我們俗稱的金字塔思維。思維導圖是必備的工具。

之后再了解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經(jīng)典。

分析也是有框架和方法論的,主要圍繞三個要點展開:

  • 一個業(yè)務沒有指標,則不能增長和分析;
  • 好的指標應該是比率或比例;
  • 好的分析應該對比或關聯(lián)。

舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎么分析?

  • 這1000人的數(shù)量,和附近其他超市比是多是少?(對比)
  • 這1000人的數(shù)量比昨天多還是少?(對比)
  • 1000人有多少產(chǎn)生了實際購買?(轉(zhuǎn)化比例)
  • 路過超市,超市外的人流是多少?(轉(zhuǎn)化比例)

這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。

優(yōu)秀的數(shù)據(jù)分析師會拷問別人的數(shù)據(jù),而他本身的分析也是經(jīng)得起拷問,這就是分析思維能力。需要確切明白的是,一周時間鍛煉不出數(shù)據(jù)思維,只能做到了解。數(shù)據(jù)思維是不斷練習的結果,我只是盡量縮短這個過程。

第四周:數(shù)據(jù)庫學習

Excel對十萬條以內(nèi)的數(shù)據(jù)處理起來沒有問題,但是互聯(lián)網(wǎng)行業(yè)就是不缺數(shù)據(jù)。但凡產(chǎn)品有一點規(guī)模,數(shù)據(jù)都是百萬起。這時候就需要學習數(shù)據(jù)庫。

越來越多的產(chǎn)品和運營崗位,會在招聘條件中,將會SQL作為優(yōu)先的加分項。

SQL是數(shù)據(jù)分析的核心技能之一,從Excel到SQL絕對是數(shù)據(jù)處理效率的一大進步。

學習圍繞Select展開。增刪改、約束、索引、數(shù)據(jù)庫范式均可以跳過。

主要了解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉(zhuǎn)換函數(shù)等。

如果想要跟進一步,可以學習row_number,substr,convert,contact等。另外不同數(shù)據(jù)平臺的函數(shù)會有差異,例如Presto和phpMyAdmin。

再有點追求,就去了解Explain優(yōu)化,了解SQL的工作原理,了解數(shù)據(jù)類型,了解IO。以后就可以和技術研發(fā)們談笑風生,畢竟將“這里有bug”的說話,換成“這塊的數(shù)據(jù)死鎖了”,逼格大大的不同。

SQL的學習主要是多練,網(wǎng)上尋找相關的練習題,刷一遍就差不多了。

第五周:統(tǒng)計知識學習

很遺憾,統(tǒng)計知識也是我薄弱的地方,可這是數(shù)據(jù)分析的基礎。

我看過很多產(chǎn)品和運營相關的數(shù)據(jù)分析文章,沒有多少提及統(tǒng)計知識。這是不嚴謹?shù)摹?/p>

比如產(chǎn)品的AB測試,如果產(chǎn)品經(jīng)理并不清楚置信度的含義和概念,那么好的效果并不意味著真正的好。尤其是5%這種非顯著的提高。

比如運營一次活動,運營若不了解檢驗相關的概念,那么如何去判別活動在數(shù)據(jù)上是有效果還是沒有效果?別說平均數(shù)。

再討論一下經(jīng)典的概率問題,如果一個人獲流感,實驗結果為陽性的概率為90%;如果沒有獲流感,實驗結果為陽性的概率為9%?,F(xiàn)在這個人檢驗結果為陽性,他有多少幾率是得了流感?

如果你覺得幾率有50%、60%、70%等等,那么都犯了直覺性的錯誤。它還和得病的基礎概率有關。

統(tǒng)計知識會教我們以另一個角度看待數(shù)據(jù)。如果大家了解過《統(tǒng)計數(shù)據(jù)會撒謊》,那么就知道很多數(shù)據(jù)分析的決策并不牢靠。

我們需要花一周的時間掌握描述性統(tǒng)計,包括均值、中位數(shù)、標準差、方差、概率、假設檢驗、顯著性、總體和抽樣等概念。

不需要學習更高階的統(tǒng)計知識,誰讓我們是速成呢。只要做到不會被數(shù)據(jù)欺騙,不犯錯誤就好。

以Excel的分析工具庫舉例(圖片網(wǎng)上找來)。在初級的統(tǒng)計學習中,需要了解列1的各名詞含義,而不是停留在平均數(shù)這個基礎上。

9cce8bdc0d4484c62ab68228dd77822e_b

第六周:業(yè)務知識(用戶行為、產(chǎn)品、運營)

這一周需要了解業(yè)務。對于數(shù)據(jù)分析師來說,業(yè)務的了解比數(shù)據(jù)方法論更重要。當然很遺憾,業(yè)務學習沒有捷徑。

我舉一個數(shù)據(jù)沙龍上的例子,一家O2O配送公司發(fā)現(xiàn)在重慶地區(qū),外賣員的送貨效率低于其他城市,導致用戶的好評率降低??偛康臄?shù)據(jù)分析師建立了各個指標去分析原因,都沒有找出來問題。后來在訪談中發(fā)覺,因為重慶是山城,路面高低落差比較夸張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。

這個案例中,我們只知道送貨員的送貨水平距離,即POI數(shù)據(jù),根本不可能知道垂直距離的數(shù)據(jù)。這就是數(shù)據(jù)的局限,也是只會看數(shù)據(jù)的分析師和接地氣分析師的最大差異。

對業(yè)務市場的了解是數(shù)據(jù)分析在工作經(jīng)驗上最大的優(yōu)勢之一。不同行業(yè)領域的業(yè)務知識都不一樣,我就不獻丑了。在互聯(lián)網(wǎng)行業(yè),有幾個寬泛的業(yè)務數(shù)據(jù)需要了解。

產(chǎn)品數(shù)據(jù)分析,以經(jīng)典的AAARR框架學習,了解活躍留存的指標和概念(這些內(nèi)容,我的歷史文章已經(jīng)涉及了部分)。

并且數(shù)據(jù)分析師需要知道如何用SQL計算。因為在實際的分析過程中,留存只是一個指標,通過userId 關聯(lián)和拆分才是常見的分析策略。

網(wǎng)站數(shù)據(jù)分析,可以抽象吃一個哲學問題:

用戶從哪里來(SEO/SEM),用戶到哪里去(訪問路徑),用戶是誰(用戶畫像/用戶行為路徑)。

雖然網(wǎng)站已經(jīng)不是互聯(lián)網(wǎng)的主流,但現(xiàn)在有很多APP+Web的復合框架,朋友圈的傳播活動肯定需要用到網(wǎng)頁的指標去分析。

用戶數(shù)據(jù)分析,這是數(shù)據(jù)化運營的一種應用。

在產(chǎn)品早期,可以通過埋點計算轉(zhuǎn)化率,利用AB測試達到快速迭代的目的,在積累到用戶量的后期,利用埋點去分析用戶行為,并且以此建立用戶分層用戶畫像等。

例如用貝葉斯算法計算用戶的性別概率,用K聚類算法劃分用戶的群體,用行為數(shù)據(jù)作為特征建立響應模型等。不過快速入門不需要掌握這些,只需要有一個大概的框架概念。

除了業(yè)務知識,業(yè)務層面的溝通也很重要。在業(yè)務線足夠長的時候,我不止一次遇到產(chǎn)品和運營沒有掌握所有的業(yè)務要點,尤其涉及跨部門的分析。良好的業(yè)務溝通能力是數(shù)據(jù)分析的基礎能力。

第七周:Python/R 學習

終于到第七周,也是最痛苦的一周。這時應該學習編程技巧。

是否具備編程能力,是初級數(shù)據(jù)分析和高級數(shù)據(jù)分析的風水嶺。數(shù)據(jù)挖掘,爬蟲,可視化報表都需要用到編程能力(例如上文的多元散點圖)。掌握一門優(yōu)秀的編程語言,可以讓數(shù)據(jù)分析師事半功倍,升職加薪,迎娶白富美。

以時下最熱門的R語言和Python為學習支線,速成只要學習一條。

我剛好兩類都學過。R的優(yōu)點是統(tǒng)計學家編寫的,缺點也是統(tǒng)計學家編寫。如果是各類統(tǒng)計函數(shù)的調(diào)用,繪圖,分析的前驗性論證,R無疑有優(yōu)勢。但是大數(shù)據(jù)量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程腳本化。Pandas,SKLearn等各包也已經(jīng)追平R。

學習R,需要了解數(shù)據(jù)結構(matrix,array,data.frame,list等)、數(shù)據(jù)讀取,圖形繪制( ggplot2)、數(shù)據(jù)操作、統(tǒng)計函數(shù)(mean,median,sd,var,scale等)。高階的統(tǒng)計暫時不用去涉及,這是后續(xù)的學習任務。

R語言的開發(fā)環(huán)境建議用RStudio。

學習Python有很多分支,我們專注數(shù)據(jù)分析這塊。需要了解調(diào)用包、函數(shù)、數(shù)據(jù)類型(list,tuple,dict),條件判斷,迭代等。高階的Numpy和Pandas在有精力的情況下涉及。

Python的開發(fā)環(huán)境建議Anaconda,可以規(guī)避掉環(huán)境變量、包安裝等大部分新手問題。Mac自帶Python2.7,但現(xiàn)在Python 3已經(jīng)比幾年前成熟,沒有編碼問題,就不要抱成守舊了。

對于沒有技術基礎的運營和產(chǎn)品,第七周最吃力,雖然SQL+Excel足夠應付入門級數(shù)據(jù)分析,但是涉及到循環(huán)迭代、多元圖表的分析部分,復雜度就呈幾何上升。更遑論數(shù)據(jù)挖掘這種高階玩法。

我也相信,未來了解數(shù)據(jù)挖掘的產(chǎn)品和運營會有極強的競爭力。

到這里,剛剛好是七周。如果還需要第八周+,則是把上面的鞏固和融會貫通,畢竟這只是目的性極強的速成,是開始,而不是數(shù)據(jù)分析的畢業(yè)典禮。

如果希望數(shù)據(jù)分析能力更近一步,或者成為優(yōu)秀的數(shù)據(jù)分析師,每一周的內(nèi)容都能繼續(xù)學習至精通。實際上,業(yè)務知識、統(tǒng)計知識僅靠兩周是非常不牢固的。

再往后的學習,會有許多分支。比如偏策劃的數(shù)據(jù)產(chǎn)品經(jīng)理,比如偏統(tǒng)計的機器學習,比如偏商業(yè)的市場分析師,比如偏工程的大數(shù)據(jù)工程師。這是后話了。

 

本文由 @秦路?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 非常感謝

    來自北京 回復
    1. ?

      來自北京 回復
  2. 最近剛好在學習sql,老師說的很在理,可以作為小白系統(tǒng)化學習指導

    來自上海 回復
  3. 覆蓋的知識量有點多 我只會py3

    回復
  4. 加上作業(yè),發(fā)你郵箱批改

    回復
  5. 比較系統(tǒng)化,對于沒有人帶的小白是個很好的學習資料,感謝作者分享,持續(xù)關注!

    來自湖南 回復
  6. 不過文章要是在能落地點兒,就更好了!讓小白可以一個階段一個階段的去學習!

    來自廣東 回復
  7. 文章相當不錯,寫的即精簡又統(tǒng)籌,相當于數(shù)據(jù)分析的一生!贊

    來自廣東 回復
  8. 大神,能推薦些書籍和教材嗎?

    來自北京 回復
    1. 1、excel:個人用excel2010應用大全,書有點厚,但是非常詳細,還有例題可以自己操作
      2、圖表:excel基本的都可以,然后可以在相關論壇看別人的圖表自己做做,然后了解一下echarts,tableau應該夠了,tableau網(wǎng)上有免費版和教程
      3、分析思維還是要多練習,個人覺得可以看MBA經(jīng)典案例分析,這個不是很了解,不多說
      4、數(shù)據(jù)庫:sql必知必會,加上網(wǎng)上的50題,搞定基本差不多
      5、統(tǒng)計知識:商務與經(jīng)濟統(tǒng)計學,應該是13版
      6、業(yè)務知識:產(chǎn)品的:增長黑客
      7、Python:利用Python進行數(shù)據(jù)分析,集體智慧編程,R:R IN ACTION
      希望有所幫助

      來自浙江 回復
    2. 你好 估計要多久才可以學會這么多知識

      來自上海 回復
  9. 有種慕然開朗的感覺,可以加下您的聯(lián)系方式嗎?

    來自廣東 回復
    1. 關注我公眾號私下問吧

      來自上海 回復
    2. 前輩,您的微信公眾號是什么???

      來自上海 回復
    3. tracykanc

      來自上海 回復
  10. 適用于商品運營么

    來自河南 回復
    1. 使用的

      來自上海 回復
  11. 為什么我看著都挺熟,大學學的數(shù)學+計算機+概率論,用過spss做實驗 ??

    來自廣東 回復
    1. 哈哈,那很棒啊

      來自上海 回復
  12. 感謝老師的指導?。?!

    來自四川 回復
  13. 小白有點看不懂了

    回復
    1. 看懂就不是小白了。 ??

      來自廣東 回復
    2. 好有道理的樣子

      來自浙江 回復
  14. 感覺很(高)懵(大)逼(上)~還能在柴米油鹽點嗎 ?? ?小白級別,讀著費點意思 ?

    來自北京 回復
    1. 會有啊

      來自上海 回復
  15. 膜拜~

    來自北京 回復
  16. 數(shù)據(jù)可視化有相關教程或數(shù)據(jù)推薦嗎?

    來自廣東 回復
    1. 是哪一類可視化?

      來自上海 回復
    2. 請問可視化的那些圖是如何制作的?

      回復
  17. 靜待

    來自北京 回復
  18. 大神,收下我的膝蓋,我要拜你為師。 ??

    來自廣東 回復
  19. 支持,期待教程。

    來自北京 回復
  20. 現(xiàn)在BI還有必要學習嗎?目前正在看統(tǒng)計、python中~~~

    來自上海 回復
    1. 主要就是免去了報表的工作,數(shù)據(jù)多了都會用bi的

      來自上海 回復
  21. 很贊的干貨,期待連載~~~

    來自北京 回復
  22. 非常贊!另外可否推薦下具體的教程或書籍?

    來自上海 回復
    1. 看想學哪一周的內(nèi)容了

      來自上海 回復
  23. 補充一下,沒有做過數(shù)據(jù)分析的人,應該是看不懂的(TA只會覺得作者好牛逼)。所以作者可以考慮來個教程版。

    來自廣東 回復
    1. 已經(jīng)在做啦

      來自上海 回復
    2. 好期待?。?/p>

      來自廣東 回復
  24. 真心寫的好。作者真牛!

    來自廣東 回復
  25. 很好的干貨,但就怕自己沒有毅力堅持過去QAQ

    來自上海 回復
  26. 受益匪淺,只是缺少一個老師,因為自學能力較差

    回復
    1. 哈哈我也是??

      回復
  27. 高級貨! ??

    來自廣東 回復
  28. 睡前看看。瞬間困了

    回復
  29. 我進來看評論的,竟然沒有

    回復
    1. 大家都默默收藏了

      來自上海 回復
    2. 我也收藏起來

      回復
    3. 我進來只看到你評論,沒有其他人

      回復
  30. 非常不錯哦~

    來自北京 回復