數(shù)據(jù)分析,你逃不掉的幾大“坑”

9 評論 19930 瀏覽 86 收藏 13 分鐘

今天想寫的主題是:數(shù)據(jù)分析?,我一直覺得這屬于很多人不知道Ta有多重要、一部分人知道Ta重要但并不重視,只有極少數(shù)人真正在工作中重視Ta并且運用Ta。

說一個東西重要,肯定要講為什么,不然絕對是要被拿著刀追幾條街的。

那么,數(shù)據(jù)分析為什么重要呢?至少有以下好處:

  1. 相比“似乎”、“好像”,能夠更加客觀的呈現(xiàn)真實現(xiàn)狀;
  2. 相比“我以為”、“我覺得”,數(shù)據(jù)的改變是對產(chǎn)品”改變”做出的最直觀、最無聲的投票,數(shù)據(jù)可以佐證“改變”是否正確、恰當以及效果如何;
  3. 相比所謂的“經(jīng)驗”、“年紀”、“職位”,數(shù)據(jù)能夠排除掉這些太不可控的“主觀”的影響/壓力,作為另一個相對客觀的決策依據(jù);

說的更加大白話一些的,那就是:

  • 你剛接手個新業(yè)務,搞不清現(xiàn)狀,小伙伴也東一嘴西一嘴的講的碎碎的,你可以看數(shù)據(jù);
  • 如果你想做某個需求,人家不給你做,你可以甩數(shù)據(jù)給他看,證明需求的必要性;
  • 如果你不想做某個需求,但人家硬要你做,你還是可以甩數(shù)據(jù),證明需求無意義或者效果不理想;
  • 如果你做了需求不知道要不要繼續(xù)迭代下去,你還是可以看數(shù)據(jù),去看用戶的無聲投票如何;

數(shù)據(jù)是產(chǎn)品、運營、技術日常裝備中必不可少的矛和盾。至于什么時候是矛,什么時候是盾,那就看不同場合不同情況了。

// 補充:數(shù)據(jù)分析輔助決策,但并不是決策的唯一要素。我并不鼓吹數(shù)據(jù)分析天下第一,請注意,合理使用才是王道。

數(shù)據(jù)的最大天坑

數(shù)據(jù)分析,字面意思,數(shù)據(jù)分析由兩個部分組成:一是數(shù)據(jù),二是分析,看起來跟廢話一樣,但卻也是絕大多數(shù)人都忽略的。

大多數(shù)人在講到數(shù)據(jù)分析的時候,更加注重的是分析,而并不是數(shù)據(jù)本身,這就造成了數(shù)據(jù)分析最大的誤區(qū):不關心數(shù)據(jù)怎么來,使勁兒做無用功

舉個簡單的例子唄?

在App的新版本上,產(chǎn)品經(jīng)理新加了個子頻道。版本上了一段時間數(shù)據(jù)穩(wěn)定后,產(chǎn)品經(jīng)理從數(shù)據(jù)發(fā)現(xiàn),哎喲,這個子頻道很吊炸天啊,點擊率、登錄比等數(shù)據(jù)同比甩其他子頻道N條街啊,恩,說明這個子頻道用戶很需要呀,以后要接著往這個方向上做。

看似,產(chǎn)品經(jīng)理好像做了正確決策吧?

然而,oh,no,不幸的消息來了!

程序員在數(shù)據(jù)埋點的時候不小心埋錯了,他把另一個熱門子頻道的數(shù)據(jù)和這個新頻道埋在了一起,數(shù)據(jù)計算的是這兩個頻道的總和?。ū福绦騿T又一次實力背鍋,之后會為你們正名)

因為錯誤的數(shù)據(jù),得出了錯誤的分析結果,并且還做了后續(xù)錯誤方向的工作,這在日常中其實并不少見,雖然真的很蠢。

有效數(shù)據(jù)分析的前提,是對正確的數(shù)據(jù)做分析。

分析的最大天坑

數(shù)據(jù)怎么來的,是基礎。得來的數(shù)據(jù)怎么分析,是進階。光有數(shù)據(jù)不分析,假把式,還糟蹋了人家的SQL。

這就引來了一個重要問題:為什么要分析?

  • 用基本的分析去了解現(xiàn)狀以及趨勢;
  • 用針對的分析去驗證或者踢翻自己的想法;

看似很簡單,實際做起來卻一點兒都不簡單。又要舉個常見例子唄:

新版本發(fā)布了一段時間,數(shù)據(jù)也穩(wěn)定了,產(chǎn)品經(jīng)理讓實習生A、B、C分別做一份用戶對新版本各項修改內(nèi)容的數(shù)據(jù)分析反饋報告。

實習生A:這個簡單啊,數(shù)據(jù)組的同學一定有數(shù)據(jù),拿過來就是了。

最后他把各種原始數(shù)據(jù)表發(fā)給了產(chǎn)品經(jīng)理;

產(chǎn)品經(jīng)理內(nèi)心獨白:X,我要你有個啥用?

實習生B:這個工作,數(shù)據(jù)同學說不定已經(jīng)做了,直接找他問就好了嘛。

最后他把數(shù)據(jù)挖掘童鞋的口述內(nèi)容寫成了報告發(fā)給了產(chǎn)品經(jīng)理;

產(chǎn)品經(jīng)理內(nèi)心獨白:雖然比之前的那個好,但依舊X,你自己的腦子呢?

實習生C:這個報告不是那么好寫的,至少得:

  1. 看下新增、優(yōu)化、影響了哪些地方做重點觀察;
  2. 圍繞著這些地方,分別列好目標和可能的猜想;
  3. 找數(shù)據(jù)挖掘童鞋聊并且記錄根據(jù)他的角度數(shù)據(jù)處于什么樣的情況,還得記得拿原始數(shù)據(jù);
  4. 自己再做一次針對性的數(shù)據(jù)分析工作;
  5. 得出一些結論,保留一些疑惑等;

最后他把根據(jù)以上步驟得出的觀點做成了報告發(fā)給了產(chǎn)品經(jīng)理,同時附帶了原始數(shù)據(jù)的各種變形計算;

產(chǎn)品經(jīng)理內(nèi)心獨白:這個上道,可以的可以的。

實習生A、B其實都屬于沒有搞清楚為什么要分析,分析的目的到底是什么。沒有想清楚這一環(huán)節(jié),自然給到的分析結果也沒什么用了。

分析目的是指南針,只有方向?qū)α?,后續(xù)的各種分析方法以及分析結果才有意義。

上文舉的例子,其實一部分說明了數(shù)據(jù)分析過程中除了以上兩大坑之外的一些其他小坑坑,下面也來簡單列一列:

1. 小團隊的數(shù)據(jù)正確性很難被保證

這個就是上文舉例的時候我說會為開發(fā)同學正名的部分。大公司暫且不說,畢竟,光是數(shù)據(jù)支持團隊就比人家小公司一整個團隊的人還要多了。

小公司往往沒有資源去組建自己的數(shù)據(jù)團隊,這個時候就要使用各種第三方的統(tǒng)計軟件來做數(shù)據(jù)埋點。然而,各個統(tǒng)計軟件又有各自的問題:

  • GA:需要翻墻,數(shù)據(jù)會計漏;
  • 百度:額,不說了;
  • 友盟:統(tǒng)計大的數(shù)據(jù)ok,但是在細致的用戶行為方面就比較菜了,代碼埋點也是個坑,數(shù)據(jù)也不圖表化?。ê镁们坝玫模赡墁F(xiàn)在已經(jīng)慢慢有圖表了吧?);
  • fabric:和友盟其實差不多,但是強在程序報錯上,另外數(shù)據(jù)圖表化做的也是很炫酷,但,還是坑爹的代碼埋點;
  • growing io/諸葛io:強于細致的用戶行為數(shù)據(jù)分析,同時宣稱可以無代碼埋點。然而無代碼埋點又是另一個不亞于代碼埋點的大坑,必須符合他的框架寫法才行,不然數(shù)據(jù)統(tǒng)計不上或者出錯。然而,框架寫法又沒有明確的文本說明,開發(fā)也不一定能改掉自己的寫法。另外,細致的用戶行為數(shù)據(jù)分析,在實際分析操作上也是很蛋疼的;

完蛋,扯遠了,這塊如果感興趣,可以專門搞篇文章寫寫。想說的是,代碼埋點會產(chǎn)生很多問題,例如:

  • 可能因為不同程序員的頁面代碼寫法不同,計算結果不同;
  • 可能因為埋點過程中沒有溝通好,出現(xiàn)理解偏差,計算結果不同;
  • 可能因為開發(fā)不小心埋錯點,計算結果不同;
  • 可能因為版本迭代修改了某個地方,導致計算結果不同;

非常多可能性,導致埋點錯誤,從而導致數(shù)據(jù)錯誤。每次看移動端數(shù)據(jù),都要ios和android端一起對著看,誰能懂?跟偵探一樣樣的。

2. 存在已久并不代表一定正

這個存在已有,不僅是指數(shù)據(jù),同樣也指分析結果。

某個數(shù)據(jù)存在已有,所有人都對Ta沒有質(zhì)疑,這就能說明這個數(shù)據(jù)沒錯了么?

其實不一定哦,也許這個數(shù)據(jù)從未被人注意過,也有可能大家都把質(zhì)疑數(shù)據(jù)的正確性這個前提給忽略掉了。

所以,如果在分析的過程中發(fā)現(xiàn),數(shù)據(jù)的橫向?qū)Ρ然蛘呖v向?qū)Ρ?,結果存在一定的違背,那么這個時候就要注意了。

至于分析結果的存在已久嘛,沒啥好說的,產(chǎn)品功能、產(chǎn)品運營手法都有可能導致數(shù)據(jù)的大變動,分析時段自然要比較新鮮才有用。

3. 數(shù)據(jù)條件很重要

數(shù)據(jù)條件是什么意思?說白了就是放在數(shù)據(jù)這兩字前的定語,即:什么樣的數(shù)據(jù)。(這是定語還是形容詞,傻傻搞不清)

舉個例子:

極度活躍用戶、一般活躍用戶、不活躍用戶、沉默用戶、流失用戶。在用戶之前的字就是數(shù)據(jù)條件。

為啥說數(shù)據(jù)條件很重要呢?原因在于不同條件的數(shù)據(jù)在各項指標上可能都會差異非常大,而無法用簡單的均值來做概括。例如極度活躍用戶在活躍天數(shù)、活躍時長、日活躍次數(shù)、留存率等上都會甩掉其他用戶好幾個級別。

當然,更為日常的情況是,在和數(shù)據(jù)同學溝通的時候,一定要先確保大家的溝通前提處在同一條件下,不然很可能出現(xiàn)的情況是:拿到的數(shù)據(jù)是正確的,但是條件是偏差的。

4. 第一手分析很重要

很多小伙伴喜歡偷懶,覺得有數(shù)據(jù)挖掘同學分析數(shù)據(jù)就可以了,但其實并不是這樣的。

其一:除了數(shù)據(jù)本身是客觀的之外,對數(shù)據(jù)做的任何處理都是主觀的,不管是用模型還是各種數(shù)據(jù)之間的變形計算,都是主觀的,差別在于主觀的程度多少而已,每個人都會站在自己的背景知識去處理數(shù)據(jù),如何保證別人的和自己相同呢?

其二:在分析數(shù)據(jù)的過程中,一般來說,各種橫縱向?qū)Ρ?,是可以發(fā)現(xiàn)一些自己之前沒有注意過的結論的。而這點,別人幫你分析的過程中,一般這些信息無形中就不見了。

5. 分析具有聯(lián)動性

絕大多數(shù)情況下,單獨看某一個數(shù)據(jù),一般意義不那么大,或者說達不到更好的效率。

舉些例子:

  • 評價某模塊做的好不好,只看絕對uv,而不同時看模塊登錄比,介是耍流氓;
  • 評價內(nèi)容做的好不好,只看生產(chǎn)的絕對量,而不同時看不同類型內(nèi)容的分別用戶uv占比/生產(chǎn)量,介也是耍流氓;

聯(lián)動的看數(shù)據(jù),才能更加綜合的去判斷。

感覺寫的差不多了,那就先這樣唄?雖然還有一些其他小坑,哎喲,以后再寫吧。再熬夜,感覺一周都要緩不過去了。

題圖來自 Unsplash ,基于 CC0 協(xié)議

#專欄作家#

瑤子,微信公眾號killifer,人人都是產(chǎn)品經(jīng)理專欄作家。原選股寶首席打雜PM汪,現(xiàn)某廠打雜運營喵。從0到1分別做過產(chǎn)品和運營,相信懂業(yè)務懂人性的商人才可能是個好產(chǎn)品運營。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 起點學院專門為0基礎的0-2歲互聯(lián)網(wǎng)人開設了《15天入門互聯(lián)網(wǎng)數(shù)據(jù)分析》班級哦~課程由數(shù)據(jù)思維+真實案例+實操相結合,提升你的數(shù)據(jù)分析能力!戳此了解>>http://996.pm/YNG4e

    來自廣東 回復
  2. 大神,第三方數(shù)據(jù)統(tǒng)計軟件TalkingData和易觀方舟怎么樣?

    來自山東 回復
  3. 啊,各種數(shù)據(jù)采集方式的優(yōu)劣勢對比,評論竟然不能配圖。有需要的朋友可以私聊我或者加我微信hhhcccmmm

    來自北京 回復
    1. 另外,所有的分析產(chǎn)品都有一定的優(yōu)劣,還沒見過有哪一款產(chǎn)品在整個數(shù)據(jù)分析鏈路上做到100分的。當然,我們也不會去苛求這件事,一般的分析童鞋都是取幾款數(shù)據(jù)平臺的各自長處一起使用的。

      針對我提出來的一些體驗問題,不需要太過介懷。

      來自浙江 回復
  4. 首先,關于作者文中提到的數(shù)據(jù)分析的第一大誤區(qū),我個人表示贊同:不關心數(shù)據(jù)怎么來,使勁兒做無用功。確實,在做分析之前的上一層,一定是數(shù)據(jù)來源或者是采集的準確性,這也是我們服務客戶過程中在采集這塊兒著重強調(diào)的,比如采集時機的重要性,團隊內(nèi)部的信息通暢。對于文中提到了諸葛io的部分,可能我會從以下兩個方面做些說明:
    一、關于采集
    諸葛io 主張代碼采集,(我們在市場層面從沒有主打過可以無代碼埋點)雖然我們今年也支持了全埋點、可視化埋點,但我們認為他有不同的應用場景,后兩者我們建議用在落地頁、或產(chǎn)品頁面體驗層面的衡量,這些頁面對數(shù)據(jù)偏統(tǒng)計需求,或者因為量太大加上開發(fā)資源緊張等等。更重要的一點是因為代碼埋點的準確程度、精細化程度以及對數(shù)據(jù)的二次可用性都要遠遠優(yōu)于后兩者。
    關于目前的幾種數(shù)據(jù)采集方式的優(yōu)劣勢如下圖:

    二、關于提到的代碼埋點的問題
    從文中羅列的幾個問題來看,其實都不是這項技術本身的問題,都可以通過內(nèi)容溝通和協(xié)同解決。因為就目前看來,沒有比代碼埋點采集到的數(shù)據(jù)更準確了,以“注冊按鈕”點擊為例,通常我們判斷用戶注冊成功需要請求服務器,當服務器返回注冊成功的判斷時才會記為這個按鈕成功觸發(fā)了,而通過可視化埋點只能采集頁面元素的點擊情況,也就是不管你有沒有輸入手機號驗證碼,只要這個按鈕可點擊,用戶一但點擊,就會+1,如果通過這個按鈕的點擊情況確定注冊人數(shù)肯定會有誤差。但恰恰是代碼埋點的靈活性,你可以采集click,也可以等服務器判斷成功了再記,那這個過程中最大的問題就是需求提清楚,需求是采集click就行還是需要準確的注冊,直接影響這段代碼放哪兒。
    不能直接判斷準確與否,準確是建立在明確了某個數(shù)據(jù)是在什么樣的背景條件下來的就是準確的。
    在從需求到采集到測試到正式環(huán)境發(fā)版,我們有一套完整的團隊協(xié)作流程。這可以最大程度的避免文中提到的問題的發(fā)生。

    以上~

    來自北京 回復
    1. 抱歉,可能是我行文略有不當導致您產(chǎn)生了誤解,我可能需要解釋一下哈:

      1、針對埋點我列出了非常多的問題,但是并不代表我否認這個技術。誠如你所說,代碼埋點依舊是最精準的;

      2、雖然代碼埋點準確,但是我列的是人在使用這項技術的時候會出現(xiàn)的問題以及不容易被注意到的易產(chǎn)生數(shù)據(jù)錯誤的非技術原因。這個我認為依舊是非常有必要提醒相關的分析童鞋的。技術沒有對錯,但人的使用方法是有對錯、有使用性能問題的。指出認為因素,并不是說不要用,而是說要注意的用;

      3、針對諸葛io采集數(shù)據(jù)的技術問題,確實是我的行文使用的專有名詞不當,我文中所提到的“無代碼埋點”的意思基本等于你所說的“全埋點、可視化埋點”,想要表達的意思,也確實沒有明說,只是一筆帶過,意思就是區(qū)別于代碼埋點的另一種新的方式,可以達到基本不需要再讓程序員做一一的點對應埋點,而是可以加入一個sdk包引入相關的埋點資源,讓數(shù)據(jù)同學可以通過一定的界面去自行配置所要監(jiān)測的位置,這樣的一種方法。這個方法確實有一定的優(yōu)勢,但同時,我所說的問題也都存在。

      來自浙江 回復
  5. 觀點不錯,但后面扯得有點遠,最大的坑,不是在數(shù)據(jù)產(chǎn)生之后,而是需要什么地方出產(chǎn)數(shù)據(jù),產(chǎn)品經(jīng)理必須要明白各個埋點的作用,尤其在開始階段切忌大而泛,自己曾經(jīng)就有痛苦的經(jīng)歷,在第一版本已經(jīng)提出了非常多的需求,雖然都很有用,但研發(fā)寫代碼都忙瘋了,還要照顧如此之多的埋點,真正上線的時候經(jīng)常出現(xiàn)缺胳膊少腿的情況,經(jīng)常是缺失了某項導致原來構想的全盤邏輯缺失。因此需要在各個版本首先明確核心的目標,逐步完善分步實施,用數(shù)據(jù)證明需要更多的數(shù)據(jù),把大家的胃口都調(diào)動起來,整個數(shù)據(jù)分析工作才能更加有條不紊的展開

    來自廣東 回復
    1. 對的,這個其實也可以單總結一篇。我個人覺得吧,大而泛不是最大的坑點,而是大但數(shù)據(jù)鏈路不順,也就是在埋點之前,只是覺得說要埋點也不知道為什么,所以會出現(xiàn)各個點都埋,可能數(shù)據(jù)還丟失的情況。如果在一開始就想明白要驗證的用戶鏈路是怎么樣的,這鏈路上有哪些點,然后再去埋點,這樣就會稍稍避免一些問題。
      另外,區(qū)分優(yōu)先級、把握粗細粒度確實是很大的坑點,這其實包含在文章中說的“分析的目的”,您說的很有道理,我周末就總結下這塊的內(nèi)容,希望到時候可以再探討一下,嘻嘻~

      來自浙江 回復
  6. 沙發(fā)點贊。 ??

    來自北京 回復