數(shù)據(jù)的秘密(下):如何分析數(shù)據(jù)?

8 評(píng)論 6843 瀏覽 229 收藏 12 分鐘

前言

上一篇文章中,我們介紹了為什么要關(guān)注數(shù)據(jù),在本文中我將分享具體如何做。

數(shù)據(jù)的秘密(上):為什么要關(guān)注數(shù)據(jù)?

關(guān)注宏觀和細(xì)節(jié)

大多數(shù)人都能做到關(guān)注宏觀的數(shù)據(jù),拿互聯(lián)網(wǎng)產(chǎn)品來說,日活,月活,流失率,NPS(凈推薦值),這些都是宏觀的數(shù)據(jù)。宏觀數(shù)據(jù)能夠反映出產(chǎn)品的整體狀況,是值得長(zhǎng)期關(guān)注的。

但是在宏觀之外,我們還應(yīng)該關(guān)注一些細(xì)節(jié)的數(shù)據(jù)。拿日活來說,我們可以再進(jìn)一步進(jìn)行分析,比如:

  • 日活中新用戶所占的比例
  • 日活中 iOS 和 Android 的各自占比
  • 日活中大家集中活躍的時(shí)間段
  • 日活中用戶的會(huì)話(Session)次數(shù)分布,時(shí)長(zhǎng)分布
  • 日活中用戶平均使用你的產(chǎn)品核心功能的次數(shù)

當(dāng)你把數(shù)據(jù)拿放大鏡看得更細(xì)的時(shí)候,你可能就會(huì)發(fā)現(xiàn)一些問題。帶著這些問題,你進(jìn)一步分析,就可以找到更多信息。

舉一個(gè)我們創(chuàng)業(yè)產(chǎn)品項(xiàng)目的例子,我們發(fā)現(xiàn)日活中的用戶,有相當(dāng)一部分用戶只是注冊(cè)了,但是并沒有使用我們產(chǎn)品的核心功能,于是我們擔(dān)心會(huì)不會(huì)有一些付費(fèi)推廣渠道「刷量」。

所以,我們將新增用戶中不活躍的比例按渠道來劃分。通過這樣的劃分,我們很容易找到那些效果差的渠道,從而選擇更有效的推廣渠道。

關(guān)注原始數(shù)據(jù)

原始數(shù)據(jù)是什么?就是那些不是通過別的數(shù)據(jù)計(jì)算出來的,不能被分割的數(shù)據(jù)。這些數(shù)據(jù)是最最真實(shí)的,而其它通過計(jì)算出來的數(shù)據(jù),因?yàn)檫M(jìn)行了二次加工,所以不一定能夠完全反映出產(chǎn)品的問題。

再舉一個(gè)項(xiàng)目的例子,我們?yōu)榱搜芯?NPS 給我們打零分的用戶。把這些用戶的搜索數(shù)據(jù)、操作記錄都抽樣出來,一個(gè)用戶一個(gè)用戶看,然后進(jìn)行分類整理。最終我們發(fā)現(xiàn)這里面小學(xué)生用戶占比很高,從而調(diào)整了產(chǎn)品的策略,在內(nèi)容和算法上對(duì)小學(xué)生進(jìn)行了兼顧。

關(guān)注原始數(shù)據(jù)除了能改進(jìn)產(chǎn)品外,還能在技術(shù)上提高代碼的質(zhì)量。我們?cè)?jīng)遇到過一個(gè)很難復(fù)雜的 Bug,在我們的測(cè)試機(jī)中都無法復(fù)現(xiàn),但是我們通過分析相關(guān)用戶的操作記錄,找到了具體崩潰的操作方法。

雖然該操作方法不能在我們自己的機(jī)器上復(fù)現(xiàn) Bug,但是我們卻能找到相關(guān)的關(guān)鍵代碼。通過一些針對(duì)這些代碼的討論,我們就找到了 Bug 的原因。現(xiàn)在回想起來,如果沒有這些原始數(shù)據(jù),要修復(fù)這個(gè) Bug 就要困難很多了。

關(guān)于面試

其實(shí)不光做產(chǎn)品要看「原始數(shù)據(jù)」,面試一個(gè)人也是。我在面試的時(shí)候,會(huì)選一個(gè)候選人簡(jiǎn)歷上的事情,進(jìn)行深入了解。我會(huì)讓他提供詳細(xì)相關(guān)工作的數(shù)據(jù)和事例。通過這些「原始數(shù)據(jù)」,我能夠更加方便地「還原他真實(shí)的工作場(chǎng)景」,從而對(duì)他的工作質(zhì)量作出盡量客觀的評(píng)價(jià)。

舉個(gè)例子,有一個(gè)產(chǎn)品實(shí)習(xí)生候選人在簡(jiǎn)歷上寫他運(yùn)營(yíng)了一個(gè)微信公眾號(hào),「粉絲逾千,單日粉絲增量 200 以上,數(shù)篇文章閱讀量超過 3000」。但是在面試中,詳細(xì)追問這些數(shù)字,我們才發(fā)現(xiàn)他說的「逾千」是指 1000,而「單日粉絲增量 200 以上」是指的最高的一天,其它信息也都是有夸大的成分。

還有一次,我面試一個(gè)技術(shù)候選人,這個(gè)候選人說他有代碼潔癖,覺得前公司的代碼「很亂,受不了」。但是我讓他具體舉幾個(gè)例子的時(shí)候,他卻很難說出實(shí)際的例子。還有候選人說他喜歡看技術(shù)書,但是卻無法說出他印象最深的一本技術(shù)書以及其中的部分觀點(diǎn)。

通過了解細(xì)節(jié),我們就可以揭開簡(jiǎn)歷中光鮮描述的外衣,了解到事情背后的細(xì)節(jié),這對(duì)我們?cè)u(píng)價(jià)候選人至關(guān)重要。

數(shù)據(jù)可視化

數(shù)據(jù)可視化是指將原本枯燥的數(shù)據(jù),用折線圖、餅圖、柱狀圖等方式呈現(xiàn)出來,它可以使我們更容易發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,也更容易發(fā)現(xiàn)數(shù)據(jù)的異常。

在項(xiàng)目中,數(shù)據(jù)可視化多次給我們帶來巨大的幫助,包括:

  • 了解數(shù)據(jù)的特點(diǎn):我們將項(xiàng)目的 QPS 按每小時(shí)為頻率畫出成一條折線圖,所以我們很容易知道我們服務(wù)器高峰期的時(shí)間段以及訪問量。
  • 發(fā)現(xiàn)服務(wù)異常:我們將服務(wù)器搜索的失敗率占比畫出成一個(gè)餅圖,有一天,這個(gè)餅圖中顯示出失敗率突然變高了。同時(shí),每日的 NPS 分?jǐn)?shù)突然也變低了很多。我們借此發(fā)現(xiàn)了新擴(kuò)容的一臺(tái)服務(wù)器故障。因?yàn)槟桥_(tái)服務(wù)器是新加的,所以運(yùn)維忘記了增加監(jiān)控,如果沒有數(shù)據(jù)可視化的幫助,這個(gè)故障可能會(huì)持續(xù)更長(zhǎng)時(shí)間。
  • 監(jiān)控核心質(zhì)量:我們將項(xiàng)目的一些核心指標(biāo)畫成折線圖,然后大家都努力讓核心指標(biāo)更優(yōu)。
  • 發(fā)現(xiàn)惡意攻擊:一些重要指標(biāo),我們都會(huì)可視化出來,這樣當(dāng)這些數(shù)據(jù)指標(biāo)變化時(shí),我們就會(huì)進(jìn)一步分析原因,從中我們還發(fā)現(xiàn)了一些競(jìng)爭(zhēng)對(duì)手惡意的攻擊行為。

數(shù)據(jù)可視化工具

我們當(dāng)然不可能所有的數(shù)據(jù)可視化都是自己手工用 Excel、Numbers 之類的工具來生成。所以,我們開發(fā)了一個(gè)數(shù)據(jù)可視化的平臺(tái),我們把它叫做 flyboard。

flyboard 提供了各種數(shù)據(jù)可視化的方式,包括數(shù)字,折線圖,餅圖,環(huán)形圖,柱狀圖等。如下圖所示:

數(shù)據(jù)可視化工具

我們將所有的原始數(shù)據(jù)都?xì)w集到分布式存儲(chǔ) Hbase 中,然后通過配置一些定時(shí)的計(jì)算任務(wù),就可以以幾乎實(shí)時(shí)地方式,看到產(chǎn)品的各項(xiàng)可視化指標(biāo)。

這些指標(biāo),有宏觀的,也有一些比較細(xì)分的,如果我們對(duì)某項(xiàng)指標(biāo)的數(shù)值有疑問,我們就會(huì)進(jìn)一步寫一些分析腳本,來從 Hbase 中計(jì)算一些數(shù)據(jù)進(jìn)行檢查。

在我們公司,我們的三個(gè)產(chǎn)品的辦公區(qū)域,都掛著一個(gè)巨大的顯示器,這個(gè)顯示器除了用于 Scrum 的每日站會(huì)同步進(jìn)度外,平時(shí)都用 flyboard 顯示著產(chǎn)品的各項(xiàng)核心數(shù)據(jù)。

悄悄告訴你一個(gè)秘密,我們的 flyboard 可視化平臺(tái)是開源的,項(xiàng)目地址是:https://github.com/yuantiku/flyboard ,在 Github 上你可以下載到完整的代碼,我們也附有完整的安裝使用說明文檔。如果你還沒有使用任何數(shù)據(jù)可視化工具,歡迎嘗試一下 flyboard。

學(xué)習(xí)寫 SQL

由于有 HadoopHbase 、 Hive 的存在,產(chǎn)品經(jīng)理也可以通過一些簡(jiǎn)單的 SQL 語句,就可以生成MapReduce 任務(wù),進(jìn)行分布式的數(shù)據(jù)分析運(yùn)算。

所以數(shù)據(jù)分析最最常用的辦法就是寫 SQL。在很多公司,產(chǎn)品經(jīng)理都在這方面能力比較欠缺,這使得產(chǎn)品經(jīng)理在需要數(shù)據(jù)時(shí),需要向技術(shù)提需求。技術(shù)會(huì)根據(jù)自己的工作排期。這樣一來一回,一般一個(gè)簡(jiǎn)單的數(shù)據(jù)分析都需要一天時(shí)間。

這樣的低效率的方式,會(huì)扼殺產(chǎn)品經(jīng)理的一些數(shù)據(jù)分析需求,特別是那種需要探索式發(fā)現(xiàn)的數(shù)據(jù)分析工作。因?yàn)檫@種工作需要不停地根據(jù)數(shù)據(jù)分析的結(jié)果,調(diào)整各種策略來寫嘗試的 SQL。

所以在我們團(tuán)隊(duì),我們希望產(chǎn)品經(jīng)理都能有基本的數(shù)據(jù)分析能力,一些簡(jiǎn)單的 SQL 都是需要自己能夠?qū)懙?。?dāng)然,一些特別復(fù)雜的 SQL,產(chǎn)品經(jīng)理可能還是需要向技術(shù)同事咨詢。

具體如何寫 SQL,市面上已經(jīng)有非常多的相關(guān)書籍了,我在這里就不再展開介紹了。

數(shù)據(jù)查看和分析一定要方便

如果你仔細(xì)觀察就會(huì)發(fā)現(xiàn),很多革命性的產(chǎn)品就只是讓某件事情更方便了一點(diǎn)點(diǎn)。智能手機(jī)其實(shí)只是讓你上網(wǎng)更方便了一點(diǎn),但是這種方便使得人們從以前有「離線和在線」的狀態(tài),變成了永久在線。于是,移動(dòng)互聯(lián)網(wǎng)誕生了,本質(zhì)上來說,移動(dòng)互聯(lián)網(wǎng)就是一種人們永久在線的網(wǎng)絡(luò),但是就是這么一點(diǎn)點(diǎn)的方便,使得很多行業(yè)被完全顛覆。

而數(shù)據(jù)分析也是一樣,我們應(yīng)該盡量讓數(shù)據(jù)觸手可得,這樣我們才能將數(shù)據(jù)分析的效率最大化,一定程度上的效率提升就會(huì)產(chǎn)生質(zhì)變,使得我們專注于數(shù)據(jù)做更多事情。

我們之前移動(dòng)端統(tǒng)計(jì)用 Flurry,但是 Flurry 在中國(guó)實(shí)在太慢了,即使掛上國(guó)外的 VPN 也很慢!如果產(chǎn)品經(jīng)理每次登錄 Flurry 要 10 秒鐘的話,那么他就可能將注意力臨時(shí)轉(zhuǎn)移到別的事情上,然后就可能忘記本來要看的數(shù)據(jù)。

為了讓數(shù)據(jù)觸手可得,我們放棄了對(duì) Flurry 的使用,我們自己開發(fā)了日志收集平臺(tái),然后自己寫日志計(jì)算程序,將一些核心指標(biāo)全部自己計(jì)算在 flyboard 上,我們也另外開發(fā)了一套數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn) Flurry 中的類似功能?,F(xiàn)在,我們已經(jīng)能夠非常舒服地分析數(shù)據(jù)了。

所以,如果你的公司不能很方便的查看和分析數(shù)據(jù),那么一定要想辦法改進(jìn),這些數(shù)據(jù)就像人的神經(jīng)系統(tǒng)一樣,傳遞著產(chǎn)品的健康數(shù)據(jù),重視這些數(shù)據(jù),才能夠做好產(chǎn)品。

總結(jié)

總結(jié)一下本文中的觀點(diǎn):

  • 重視宏觀數(shù)據(jù)和細(xì)節(jié)
  • 關(guān)注原始數(shù)據(jù)
  • 數(shù)據(jù)可視化
  • 學(xué)會(huì)用 SQL
  • 數(shù)據(jù)查看和分析一定要方便

 

作者:唐巧

來源:http://blog.devtang.com/blog/2015/09/03/how-to-monitor-data/

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 這個(gè)分析地很好。簡(jiǎn)而言之,就是數(shù)據(jù)分析有利于宏觀把握產(chǎn)品的運(yùn)營(yíng)狀況,微觀上察覺產(chǎn)品運(yùn)營(yíng)中出現(xiàn)的主觀及客觀問題,從而幫助人們更好的定位受眾,分析受眾使用產(chǎn)品的行為規(guī)律,覺察產(chǎn)品運(yùn)營(yíng)中出現(xiàn)的大小問題。

    來自廣東 回復(fù)
  2. 博主,你的那個(gè)flyboard怎么安裝啊,難道還要寫代碼 么?

    來自廣東 回復(fù)
  3. git bash 下 安裝好nodejs 然后按照上面的命令執(zhí)行,不過npm install時(shí)候出現(xiàn)了問題 不知道為啥

    來自浙江 回復(fù)
  4. 能多說些案例就好了 還是比較抽象。。。

    來自北京 回復(fù)
  5. ..那個(gè)flyboard不知道怎么用

    來自廣東 回復(fù)
  6. oh holy shit…… 簡(jiǎn)直……

    來自浙江 回復(fù)
  7. ?? ?? ?? ?? ?? ??

    來自浙江 回復(fù)
  8. flyboard 怎么跑進(jìn)來???

    來自廣東 回復(fù)