淺談運營工作中的貝葉斯陷阱

6 評論 6841 瀏覽 29 收藏 9 分鐘

貝葉斯定理廣泛應用于各類場景,如機器學習、大數(shù)據(jù)挖掘、工程分析、金融投資等,本文僅探討貝葉斯定理在運營數(shù)據(jù)分析中的一點思考。

一、什么是貝葉斯定理

貝葉斯定理是關于隨機事件A和B的條件概率(或邊緣概率)的一則定理。

頻率主義學派認為參數(shù)是客觀存在的,即使是未知的,但都是固定值,不會改變。頻率學派認為進行一定數(shù)量的重復實驗后,如果出現(xiàn)某個現(xiàn)象的次數(shù)與總次數(shù)趨于某個值,那么這個比值就會傾向于固定。

最簡單的例子就是拋硬幣了,在理想情況下,我們知道拋硬幣正面朝上的概率會趨向于1/2,而貝葉斯提出了一種截然不同的觀念,他認為概率不應該這么簡單地計算,而需要加入先驗概率的考慮。先驗概率也就是說,我們先設定一個假設,然后通過一定的實驗來證明/推翻這個假設,這就是后驗。隨后,舊的后驗會成為一個新的先驗。

以下便是貝葉斯公式:

  • P(A|B) 是在B發(fā)生的情況下,事件A發(fā)生的概率;
  • P(A)是A發(fā)生的概率;
  • P(B|A)是在A發(fā)生的情況下B發(fā)生的概率;
  • P(B) 是B發(fā)生的概率。

簡單講,貝葉斯定律是在已知某條件的前提下,推算某事件發(fā)生的概率。

二、貝葉斯定律的應用

貝葉斯方法對于由證據(jù)的積累來推測一個事物發(fā)生的概率具有重大作用,它告訴我們當我們要預測一個事物,我們需要的是首先根據(jù)已有的經驗和知識推斷一個先驗概率(或者根據(jù)事實引入先驗概率),然后在新證據(jù)不斷積累的情況下調整這個概率。

我們以下面的例子,來一窺貝葉斯定律的妙用。

如果某種疾病的發(fā)病率為千分之一,現(xiàn)在有一種試紙,他在患者得病的情況下,有99%的準確率判斷患者得?。辉诨颊邲]得病的情況下,有5%的可能誤判患者得病?,F(xiàn)在試紙說一個患者得了病,那么患者真的得病的概率是多少?(在看下文之前大家先憑感覺預估一下,真正的得病概率應該很高吧?)

為了方便理解,我們先通過一個樹形圖進行判斷,我們假設有100000的人群。

通過以上樹狀圖,邏輯就會比較清晰。在題干給出的條件下,患者真正的得病率是多少呢?用真正得病的99作為分子,測出有病的4995+99作為分母,99÷(99+4995)=1.94%

在此案例中,用貝葉斯公式計算:

  • P(A1|B)代表試紙查出患病前提下,真實的患病概率;
  • P(A1)代表真實患者概率,即0.1%;
  • P(A2)代表健康人群概率,即99.9%;
  • P(B)代表試紙查出患者的概率;
  • P(B|A1)為真實患者條件下試紙查出患者的概率,即99%;
  • P(B|A2)為健康人群條件下試紙誤判為患者的概率,即5%;

代入公式,也可得出結論。

這個案例就是貝葉斯定律比較經典的一個應用,在已知前提下測算事件發(fā)生的概率。

三、運營數(shù)據(jù)分析中的貝葉斯陷阱

1. 錯誤的判斷

通過以上案例大家對貝葉斯定律都有了一定的了解,但是普及概念不是咱的本意,貝葉斯在運營工作中有什么應用呢?說實話,本來我對貝葉斯在運營工作中能有多大的作用并沒有概念,直到我在前段時間的一個活動復盤中發(fā)下了下面的案例。

我們有一個王牌訓練營活動,每期活動我們會選擇一個IT技術方向,設計系列課程,每日引導用戶打卡學習,完成學習后領取獎品。活動分為招募期,課程期兩個時段。

在招募過程我們會投放諸多付費or免費渠道,如我們自建的流量池、微信矩陣、外部大站、論壇、SEM等,所有活動在結束后我們都會做復盤報告。

在上一期復盤的過程中我們發(fā)現(xiàn)了一個有趣的數(shù)據(jù),參與我們訓練營的用戶畫像中,工作經驗為1-3年的開發(fā)者居多,占比在70%以上。因此,我們這一期的活動復盤報告中有了如下分析:

參與活動的開發(fā)者以1-3年工作經驗者居多,說明我們的課程內容對此類開發(fā)者更具有吸引力,可以針對此類開發(fā)者,做課程設計上的優(yōu)化。同時,說明工作1-3年的開發(fā)者對于自我提升上的需求更為強烈,后續(xù)可以在此群體重點推廣。

那么大家有沒有發(fā)現(xiàn)關于這一條數(shù)據(jù)的分析有什么問題?

我們的訓練營報名用戶工作年限是1-3年居多,這是一個結果,我們只針對這個結果進行了分析。那么按照貝葉斯定律,很明顯我們忽略了導致這個結果的前提條件:我們的投放渠道覆蓋的用戶工作年限的分布,這個前提條件的忽略最終可能影響了我們對整件事情的判斷。

2. 分析的修正

如果活動投放渠道所覆蓋的用戶就是1-3年工作經驗居多,自然報名訓練營的用戶也會是這個群體居多,那我們的數(shù)據(jù)復盤關于這一條的分析就是錯誤的,并不能說明我們的課程對工作1-3年的開發(fā)者更具有吸引力。如果我們的投放渠道用戶分布平均,而活動報名用戶出現(xiàn)了如上的分布,那我們的復盤總結便是有意義的。

在意識到以上因素后,我們對這一期活動投放渠道的引流數(shù)據(jù)做了回顧:

很明顯,能發(fā)現(xiàn)本次活動自有流量池引流效果最為顯著,報名人數(shù)占總人數(shù)的65%,而有趣的是,根據(jù)我們先前統(tǒng)計,我們的自有流量用戶工作年限畫像,1-3年工作經驗的用戶占比也是最多的,占整個自有流量池用戶的半數(shù)以上。

因此,在回溯投放渠道這一數(shù)據(jù)之后,我們發(fā)現(xiàn)最初的活動復盤中的分析并站不住腳。

以上便是貝葉斯定律在運營中應用的一個小例子的分享,如果大家關注到這一點便會發(fā)現(xiàn)在運營的角角落落里都有貝葉斯理論的身影,一不小心我們就可能陷入貝葉斯陷阱而不自知,導致對數(shù)據(jù)或者整個運營活動的分析出現(xiàn)偏差,進而影響整個運營策略的制定和調整。

 

作者:Stark,一個討厭寫文章的運營人。

本文由 @Stark 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于CC0協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 想知道作者最終活動復盤中,結論是什么?

    來自河北 回復
  2. 逆向運用貝葉斯定理,作者的腦子有意思喲

    回復
  3. 我喜歡這個角度的思考

    來自浙江 回復
  4. 文章不錯

    來自北京 回復
  5. 幸存者偏差

    回復
    1. 贊,還真是同樣的道理

      來自廣東 回復