用因果推斷解決的四類業(yè)務(wù)分析難題

1 評(píng)論 10920 瀏覽 41 收藏 30 分鐘

編輯導(dǎo)語:因果推斷對(duì)于解決業(yè)務(wù)分析難題十分重要,但是不同場(chǎng)景應(yīng)選擇什么方法還是較為復(fù)雜,本篇文章作者分享了不同場(chǎng)景下適用的因果推斷解決方法,并且用通俗易懂的語言解釋其原理與案例,干貨滿滿,感興趣的一起來學(xué)習(xí)一下吧。

一、背景

目前我們能看到因果推斷相關(guān)的資料更多的聚焦在邏輯方法本身,公式非常繁雜導(dǎo)致較難理解與應(yīng)用。

有的時(shí)候雖然看似理解了一些,但是真正應(yīng)用的時(shí)候還是不太清楚什么場(chǎng)景應(yīng)該選擇什么方法。

基于此種背景,筆者梳理一些目前業(yè)界的通用業(yè)務(wù)問題場(chǎng)景,按照不同分析場(chǎng)景類型分為四大類,分別對(duì)應(yīng)不同的適用因果推斷解決方法,并輔以通俗易懂的語言去解釋其原理與案例。

當(dāng)遇到某類問題的時(shí)候,我們能快速明確的知道用什么方法可解此類問題。

二、四類分析場(chǎng)景與對(duì)應(yīng)解決方法概覽

用因果推斷解決的四類分析難題

三、分析場(chǎng)景與適用方法

1. 場(chǎng)景一:非實(shí)驗(yàn)場(chǎng)景策略效果評(píng)估

策略、功能以及活動(dòng)的效果評(píng)估,幾乎是每個(gè)產(chǎn)品、運(yùn)營(yíng)、分析師日常工作的一大重點(diǎn)。

大到重要功能上線,小到一個(gè)文案修改,都可以去衡量這個(gè)策略的效果,比之前提升了多少,對(duì)整體數(shù)據(jù)貢獻(xiàn)了多少。

不僅衡量了工作產(chǎn)出,也為之后的優(yōu)化方向提供沉淀與依據(jù)。AB實(shí)驗(yàn)是回答這個(gè)問題的最優(yōu)解,但是當(dāng)無法做實(shí)驗(yàn)時(shí),研究如何利用歷史數(shù)據(jù)進(jìn)行因果分析評(píng)估也變的非常重要。

非實(shí)驗(yàn)場(chǎng)景的策略評(píng)估方式的核心思想就是:人為創(chuàng)造一個(gè)虛擬對(duì)照組與策略上線數(shù)據(jù)做比較估計(jì)策略真實(shí)效果。

效果回歸本質(zhì)上屬于統(tǒng)計(jì)學(xué)中的因果推斷問題。在統(tǒng)計(jì)科學(xué)中,因果推斷要解決的問題本質(zhì)是剝離我們所不關(guān)心的外部變量對(duì)結(jié)果的影響,從而精準(zhǔn)估計(jì)到我們所關(guān)心的策略因素對(duì)結(jié)果的單一影響。在不能做AB實(shí)驗(yàn)的場(chǎng)景下,通常有兩種完成這件事情的思路:

  1. 構(gòu)造相似群體(Matching):這種思路假設(shè)在未被實(shí)驗(yàn)策略影響的樣本中存在一些樣本和被實(shí)驗(yàn)策略影響的樣本存在同質(zhì)性。只要我們想辦法找到這些相似的樣本作為虛擬對(duì)照組,就可以控制外生因素。這種思想最經(jīng)典的方法是PSM(傾向得分匹配法);
  2. 構(gòu)造虛擬現(xiàn)實(shí)(Synthetic Control):這種思路認(rèn)為策略的影響其實(shí)是策略上了之后的指標(biāo)表現(xiàn)和“假設(shè)策略沒上”的平行時(shí)空中指標(biāo)表現(xiàn)的diff。因此,只要通過建模方法構(gòu)建出假設(shè)策略沒上的虛擬時(shí)空的指標(biāo)水平,即可評(píng)估實(shí)驗(yàn)策略收益。典型的方法包括合成控制法、Causal Impact等;

1)PSM

PSM的思路是對(duì)策略命中的每一個(gè)用戶,都在策略未命中用戶中找到和他近似的一個(gè)用戶。

通過這種方式,策略命中用戶和近似找到的對(duì)照用戶就有了可比性。

PSM 作為一種 matching 方法,最大的目的就是控制實(shí)驗(yàn)組和控制組的觀測(cè)變量。

舉個(gè)簡(jiǎn)單例子,我們想對(duì)比吸煙的人和不吸煙的人的健康狀況,我們觀察了兩組人群作為樣本,可能會(huì)出現(xiàn)以下兩種情況:

  • 恰好我們選取的吸煙的人群更年輕,身體本身就更健康,而不吸煙的人群整體年齡偏大,或者身體本身比較虛弱,最后觀察一段時(shí)間得出吸煙無害的結(jié)論。
  • 吸煙的人群也喜歡喝酒,吸煙的人群本身也不注重自己的健康等等一系列其他因素干擾,導(dǎo)致得出吸煙有害健康的結(jié)論。

這兩種結(jié)論都是不夠科學(xué)的,因此用 matching 的思路可以緩解上面的情況,而 PSM是 matching 最常用的方法。具體應(yīng)用可以分為以下幾個(gè)步驟:

(1)計(jì)算未被策略影響的每個(gè)用戶傾向性得分:這一步本質(zhì)是建模問題,因變量為是否被干預(yù)Treatment,自變量為用戶特征變量。做一個(gè)建模預(yù)測(cè)策略發(fā)生概率(邏輯回歸/XGB/RF等);得分

(2)匹配:有了每個(gè)用戶的傾向性得分,針對(duì)目前的被策略命中的用戶,匹配得到一個(gè)近似相同的用戶,組成對(duì)照組。

(3)修剪:篩選掉傾向性得分極值。常見的做法是保留得分在某個(gè)區(qū)間的用戶,例如實(shí)驗(yàn)組和對(duì)照組用戶得分區(qū)間的交集,只保留區(qū)間中部的 90% ,可能原始得分在0.05-0.95的用戶。

(4)匹配:實(shí)驗(yàn)組對(duì)對(duì)照組根據(jù)得分進(jìn)行匹配的時(shí)候,比較常見的有幾種方法。knn: 進(jìn)行 1 對(duì) K 有放回或無放回匹配。radius: 對(duì)每個(gè)策略影響用戶,匹配上所有得分差異小于指定 radius 的用戶

(5)設(shè)置得分差異上限:匹配用戶的時(shí)候,要求每一對(duì)用戶的得分差異不超過指定的上限min(delta(score))<caliper。

用因果推斷解決的四類分析難題

(6)平衡性檢驗(yàn):看傾向性得分在匹配前后的分布、以及特征在匹配前后的 QQ-Plot。匹配后的實(shí)驗(yàn)組和對(duì)照組的傾向性得分分布更加接近,變量分布也更接近。

(7)因果效應(yīng)估計(jì)(策略效果):我們的目標(biāo)是推斷策略組用戶的平均處理效應(yīng) ATT (Average Treatment Effect on the Treated)?,F(xiàn)在我們已經(jīng)構(gòu)造出了一對(duì)接近同質(zhì)的實(shí)驗(yàn)組和對(duì)照組了,我們可以直接比較匹配后的實(shí)驗(yàn)組和對(duì)照組。

舉個(gè)例子,業(yè)務(wù)在上線‘主播連麥PK功能’后,發(fā)現(xiàn)使用連麥PK功能的用戶比未使用此功能的用戶開播率高4.3%,于是認(rèn)為該功能提高了主播開播率。這個(gè)場(chǎng)景該如何做效果評(píng)估?

2)特征選取

自變量:用戶基礎(chǔ)畫像、行為特征;

因變量:是否使用該功能;

按照1:1的匹配比例,最終匹配上26w對(duì)用戶數(shù)據(jù)。其中策略組用戶開播率13.1%,對(duì)照組為11.2%,兩組diff為1.9%,假設(shè)檢驗(yàn)通過。因此從數(shù)據(jù)角度證明該功能確實(shí)能提高開播率,但提升效果為1.9%而不是4.3%。

用因果推斷解決的四類分析難題

3)SCM(合成控制法)

當(dāng)treatment施加到一個(gè)群體或者地區(qū)上時(shí),很難找到單一的對(duì)照組,這時(shí)可以采用合成控制方法構(gòu)造虛擬對(duì)照組進(jìn)行比較。

原理是構(gòu)造虛擬對(duì)照組,通過treatment前的數(shù)據(jù)上學(xué)習(xí)的權(quán)重,擬合實(shí)驗(yàn)組在實(shí)驗(yàn)開始前的數(shù)據(jù),模擬實(shí)驗(yàn)組用戶在沒有接受實(shí)驗(yàn)情況下的結(jié)果,構(gòu)造合成控制組,實(shí)驗(yàn)開始后,評(píng)估實(shí)驗(yàn)組和合成控制組之間的差異。

假設(shè)我們想要衡量疫情對(duì)于上北京某類商品的GMV的影響。若按照傳統(tǒng)的matching方法,我們需要選擇一個(gè)和北京疫情前的dau、gmv等最相似的非疫情城市作對(duì)比。

但用合成控制法的話,我們需要從全國所有的非疫情城市中進(jìn)行篩選,用同樣的疫情前一段時(shí)間的各類維度數(shù)據(jù)與北京進(jìn)行擬合匹配,使得合成后的「虛擬北京」在各個(gè)維度上盡可能真的接近「真北京」。

最終選取擬合效果好的:北京=0.1城市A+0.2城市B+0.3城市C+P ;

概括的說,我們要找到策略干預(yù)單元在不被策略干預(yù)情況下的反事實(shí)時(shí)間序列曲線:

用因果推斷解決的四類分析難題

在合成控制中,我們沒有很多樣本但是我們有很多時(shí)間點(diǎn)信息。

所以我們可以做回歸擬合,將每個(gè)數(shù)據(jù)點(diǎn)翻轉(zhuǎn)輸入矩陣,然后樣本會(huì)成為變量,我們將結(jié)果表示為樣本的加權(quán)平均值,就像下面的矩陣乘法:北京=0.1上海+0.2天津+0.3廣州。

我們嘗試評(píng)估疫情對(duì)北京的某品類GMV影響,我們?yōu)槠湔伊似渌?0個(gè)非疫情城市。

現(xiàn)在,我們可以將因變量定義為北京GMV,將自變量定義為其他城市GMV進(jìn)行回歸

注意幾個(gè)點(diǎn),首先策略干預(yù)后,合成控制的虛擬北京GMV超過了真實(shí)北京GMV,這表明疫情降低了北京的銷售數(shù)據(jù)。

其次,疫情前的時(shí)期是完美擬合的,這表明我們的合成控制可能發(fā)生過擬合。因?yàn)槲覀兊膶?duì)照組用了30個(gè)城市,所以我們的線性回歸模型有30個(gè)參數(shù)可以使用,這給模型提供了過多靈活性,產(chǎn)生過擬合風(fēng)險(xiǎn)。此時(shí)可以使用Ridge或者Lasso回歸來解決此問題,這里不過多贅述。

有了合成控制的虛擬北京后,我們就可以將策略效果估計(jì)為策略結(jié)果與合成控制結(jié)果之間的差距,即 真北京-虛擬北京:

用因果推斷解決的四類分析難題

由于合成控制法的樣本量通常較小,因此在確定我們的結(jié)果是否具有統(tǒng)計(jì)學(xué)意義時(shí),可以使用cross validation交叉檢驗(yàn)方法。

每次我們置換我們的策略組和對(duì)照組,由于我們只要一個(gè)策略城市,這意味著對(duì)于每個(gè)城市,我們要假裝它是被疫情影響過的,其他則是對(duì)照。

通過對(duì)所有城市應(yīng)用合成控制,我們可以估計(jì)所有城市的合成狀態(tài)和真實(shí)狀態(tài)之間的差距。對(duì)于北京來說,這就是策略效果。

對(duì)于其他非疫情城市,這就像安慰劑效應(yīng)。如果將所有安慰劑效應(yīng)與北京的疫情干預(yù)效果一起繪制,根據(jù)所有城市策略干預(yù)效果的分布,我們可以計(jì)算北京效應(yīng)量的p值。

在我們估算的所有其他30種安慰劑效應(yīng)中,沒有一個(gè)高于北京的效應(yīng)量,所以p值為非常接近于0,具有統(tǒng)計(jì)顯著意義。

用因果推斷解決的四類分析難題

2. 場(chǎng)景二:實(shí)驗(yàn)場(chǎng)景下的正向用戶下探

在做策略時(shí),我們需要探究策略對(duì)于不同用戶的異質(zhì)性影響(HTE),哪些用戶對(duì)策略更敏感更容易被影響以及影響有多少,更好的歸因和理解不同的用戶群。

通常情況下,我們結(jié)合實(shí)驗(yàn)來做分析。比如在實(shí)驗(yàn)中,我們需要挑選出來那些實(shí)驗(yàn)效果顯著的用戶,去分析他們的特征,以及找到敏感用戶,幫助我們了解策略的影響,作出下一步迭代。

針對(duì)這類問題,之前常用的方法是去針對(duì)用戶做維度下鉆,但是效率極低且并不自動(dòng)化很難遍歷所有特征組合去分析。

1)Causal Tree基本原理

這時(shí)我們可以結(jié)合機(jī)器學(xué)習(xí)的方法去解決此類問題,這里選擇因果決策樹(Causal Tree)方法。

Causal Tree是一種直接對(duì)目標(biāo)進(jìn)行建模的方式,它改進(jìn)了傳統(tǒng)決策樹的優(yōu)化目標(biāo)和指標(biāo)分桶方式,以達(dá)到最大化分桶的異質(zhì)性因果效應(yīng),同時(shí)調(diào)整誤差的效果。

首先,它會(huì)把數(shù)據(jù)分成訓(xùn)練集和估計(jì)集,一部分訓(xùn)練集去構(gòu)造樹,另一部分估計(jì)集去估計(jì)因果效應(yīng)和方差。

其次,在樹的分區(qū)方式上,使用各個(gè)節(jié)點(diǎn)的方差對(duì)目標(biāo)函數(shù)加以修正。給定訓(xùn)練集Str= {(Xi,Di,Yi)},其中Di=1代表實(shí)驗(yàn)組,Di=0代表對(duì)照組,目標(biāo)是預(yù)測(cè)E( (Yi(1) – Yi(0)) | Xi)。其中

用因果推斷解決的四類分析難題

本種方法須滿足條件獨(dú)立假設(shè)(CIA)即給定特征,用戶是否在處理組和我們關(guān)心的結(jié)果是互相獨(dú)立的。

本模型的結(jié)果易于理解,可以得到某一個(gè)葉子(用戶群)的因果效應(yīng)結(jié)果,但是如果需要處理高維變量的話能力相對(duì)較差,最終分桶效果可能相對(duì)較,且無法檢驗(yàn),所需要模型使用者真正了解問題和數(shù)據(jù)的產(chǎn)生過程。

在實(shí)際應(yīng)用時(shí),ab實(shí)驗(yàn)分析通常是滿足CIA的,且一般不需要處理過于高維變量,所以本方法在實(shí)驗(yàn)異質(zhì)性因果效應(yīng)探究問題應(yīng)用較為廣泛。

2)Causal Tree

某業(yè)務(wù)做了產(chǎn)品優(yōu)化實(shí)驗(yàn),但實(shí)驗(yàn)各項(xiàng)消費(fèi)數(shù)據(jù)表現(xiàn)較差,以APP平均使用時(shí)長(zhǎng)為例,我們能否用Casual Tree找出一些群體的消費(fèi)者,使得我們?cè)谶@些消費(fèi)者身上有正向?qū)嶒?yàn)收益?

特征選取:

  • 自變量:性別、年齡、新老用戶、是否安裝競(jìng)品、是否是創(chuàng)作者;
  • 因變量:實(shí)驗(yàn)后兩周每日APP平均時(shí)長(zhǎng)(取log)。

通過建模,我們發(fā)現(xiàn)Causal Tree的第一個(gè)分裂點(diǎn)是用戶是否是創(chuàng)作者,說明創(chuàng)作者受到了更大的實(shí)驗(yàn)負(fù)向影響。

最終樹將用戶分為了10個(gè)節(jié)點(diǎn)(10個(gè)桶),負(fù)向因果效應(yīng)最大的組為第10組(非創(chuàng)作者+未安裝競(jìng)品+0-23歲),APP平均時(shí)長(zhǎng)降低了16%。

負(fù)向因果效應(yīng)最小的組為第4組(創(chuàng)作者+未安裝競(jìng)品+0-12歲),APP平均時(shí)長(zhǎng)上漲了7%;

我們將每個(gè)組的分群因果效應(yīng)均畫出,沒有找到正向收益置信的用戶組。但是有些用戶群體,實(shí)驗(yàn)沒有對(duì)他們?cè)斐珊艽蟮呢?fù)向影響。

用因果推斷解決的四類分析難題

3. 場(chǎng)景三:策略敏感人群探究

目前業(yè)界流量競(jìng)爭(zhēng)已經(jīng)進(jìn)入白熱化,個(gè)性化策略已經(jīng)滲透到了生活中的方方面面,不論是識(shí)別營(yíng)銷敏感人群去推送刺激其消費(fèi)的優(yōu)惠券,還是為某類視頻愛好者針對(duì)性推送其所愛的垂類內(nèi)容。

而如何找到真正的策略敏感人群,將更多的預(yù)算/資源投入到可以帶來‘增量’的用戶上,以提升整體roi,成為了后時(shí)代精細(xì)化運(yùn)營(yíng)的關(guān)鍵,Uplift Model可以嘗試解決這一類問題。

1)Uplift Model基本原理

用簡(jiǎn)單的例子來介紹此模型,假設(shè)我們是個(gè)電商平臺(tái),一件標(biāo)價(jià)300元的商品,用戶的購買率為6%。現(xiàn)有一批預(yù)算可以給用戶發(fā)放10元的優(yōu)惠券以提升用戶購買率,那么這批優(yōu)惠券應(yīng)該發(fā)送給平臺(tái)的哪些用戶呢?

此時(shí)我們腦海中有四類用戶:

  1. Persuadables:不發(fā)送優(yōu)惠券則不買,發(fā)送優(yōu)惠券則購買;
  2. Sure things:不論是否發(fā)送優(yōu)惠券均會(huì)購買;
  3. Lost causes:不論是否發(fā)送優(yōu)惠券均不會(huì)購買;
  4. Sleeping Dogs:不發(fā)送優(yōu)惠券會(huì)購買,發(fā)送優(yōu)惠券反而不買。

用因果推斷解決的四類分析難題

左上的Persuadables(說服型)類用戶被發(fā)券干預(yù)后購買率得以提升,是我們真正想要進(jìn)行干預(yù)的營(yíng)銷敏感用戶。

Uplift模型要解決的問題就是通過建模預(yù)測(cè)的方法精準(zhǔn)的去對(duì)這四類用戶進(jìn)行分群。

對(duì)于單個(gè)用戶來說,無法同時(shí)觀測(cè)到在有干預(yù)和沒有干預(yù)兩種情況下的表現(xiàn),這也是因果推斷中的反事實(shí)的問題。

這時(shí)可以從用戶的角度來對(duì)平均因果效應(yīng)做估計(jì),假如我們有兩組同質(zhì)用戶,對(duì)其中一組用戶發(fā)券另外一組不發(fā)券。

之后統(tǒng)計(jì)這兩群人在購買轉(zhuǎn)化率上的差值就可以被近似認(rèn)為是平均因果效應(yīng)。

Uplift建模需要服從CIA條件獨(dú)立假設(shè),因?yàn)闃颖驹谔卣魃戏植夹枰^為一致,因此AB實(shí)驗(yàn)是Uplift Model建模過程中非常重要的前置條件。

  • 首先,我們選取部分用戶(小流量實(shí)驗(yàn),樣本量足夠建模)隨機(jī)分為實(shí)驗(yàn)組和對(duì)照組,對(duì)照組不發(fā)優(yōu)惠券,實(shí)驗(yàn)組發(fā)放優(yōu)惠券,用戶最終是否購買為一個(gè)0-1變量;
  • 然后,對(duì)整體實(shí)驗(yàn)數(shù)據(jù)用戶購買行為進(jìn)行建模;
  • 最后,再用小流量實(shí)驗(yàn)訓(xùn)練得到模型對(duì)我們需要預(yù)測(cè)的全量用戶進(jìn)行條件平均處理效應(yīng)估計(jì),預(yù)測(cè)其發(fā)放優(yōu)惠券所帶來的增益值;

假設(shè)有N個(gè)用戶,用戶i在沒有優(yōu)惠券的購買結(jié)果為Yi(0),在有優(yōu)惠券時(shí)購買結(jié)果為Yi(1),此時(shí)發(fā)送優(yōu)惠券對(duì)該用戶的增益就是uplift score (i)=Yi(1)-Yi(0)。

當(dāng)uplift score為正值時(shí),說明干預(yù)項(xiàng)對(duì)用戶有正向增益作用,也就是上文所提到的Persuadables(說服型)用戶。

此外,Uplift模型通常有幾種建模方式:S-Learner、T-Learner、Class Transformation等等。

模型評(píng)估方法有Uplift柱狀圖、QINI曲線等方式。針對(duì)幾種建模及評(píng)估方式可詳細(xì)參考該把優(yōu)惠券發(fā)送給哪些用戶?一文讀懂Uplift模型。

最后,我們總結(jié)一下Uplift模型可能的應(yīng)用場(chǎng)景:

  • 精準(zhǔn)定位策略敏感人群:我們希望找出來一些對(duì)干預(yù)項(xiàng)(例如發(fā)券、投放、內(nèi)容推薦等)比較敏感的用戶,繼而對(duì)其進(jìn)行精準(zhǔn)策略/營(yíng)銷;
  • 測(cè)算收益空間:Uplift模型可以幫助我們測(cè)算如果對(duì)策略做一些人群向優(yōu)化,業(yè)務(wù)收益將會(huì)提升多少;

2)Uplift Model

例如我們做了短劇類視頻屏蔽Holdout實(shí)驗(yàn),整體大盤DAU下降-0.5%,但大盤用戶結(jié)構(gòu)卻未看清哪些用戶是短劇核心用戶,哪些用戶的短劇類視頻推薦分發(fā)的提升空間比較大,我們需要對(duì)大盤用戶進(jìn)行分層。

特征選取:

  • 自變量:用戶基礎(chǔ)畫像、行為特征、整體視頻消費(fèi)行為、短劇消費(fèi)行為、短劇內(nèi)容偏好等;
  • 因變量:用戶是否是短劇核心用戶會(huì)反映在短劇屏蔽前后的活躍度變化上,因此需要用活躍度這個(gè)指標(biāo)來定義用戶正負(fù)樣本。正樣本:策略上線后一個(gè)時(shí)間周期 相比策略上線前一個(gè)時(shí)間周期,活躍天數(shù)差值>0,負(fù)樣本反之;

訓(xùn)練好模型后我們對(duì)大盤所有用戶進(jìn)行短劇增益預(yù)測(cè),得出了每個(gè)用戶的基于短劇分發(fā)的策略增益分?jǐn)?shù)Uplift Score,然后對(duì)其進(jìn)行分桶觀測(cè):

用因果推斷解決的四類分析難題

4. 場(chǎng)景四:因果影響指標(biāo)分析

很多時(shí)候因果推斷會(huì)遇到混淆變量的問題,比如我們想要去分析直播推薦多樣性(指標(biāo)D)對(duì)用戶活躍度(指標(biāo)Y)的影響,但此時(shí)存在很多變量X既與D相關(guān)又與Y相關(guān)。

解決這類問題傳統(tǒng)的方法是用X對(duì)Y做線性回歸,X的參數(shù)就是影響效應(yīng),或者是上XGboost看Shap值等。

但傳統(tǒng)的方法會(huì)依賴很多強(qiáng)假設(shè)例如不能多重共線性等,強(qiáng)假設(shè)下得到的估計(jì)不一定合理。

所以這種場(chǎng)景下傳統(tǒng)的指標(biāo)影響分析方法將不滿足業(yè)務(wù)需求,雙重機(jī)器學(xué)習(xí)(Double Machine Learning)為這個(gè)問題提供了解決的思路。

1)Double Machine Learning基本原理

在介紹DML之前我們先用最簡(jiǎn)單的例子來講講它所解決的問題:我們要估計(jì)冰淇淋價(jià)格與其銷量間的因果效應(yīng)。

我們的數(shù)據(jù)集中特征X包括溫度、成本和一周中的周幾三個(gè)變量,Treatment T為價(jià)格,outcome Y為銷售量。

其中,T影響Y,X影響T和Y,即存在混淆。通過可視化,我們可以很明顯看到,在周末(weekday=1和7)的時(shí)候,價(jià)格比平常要高很多,即星期幾這個(gè)特征就是價(jià)格與銷量之間的混淆變量。

用因果推斷解決的四類分析難題

一種簡(jiǎn)單的去偏方法就是線性回歸,我們擬合一個(gè)線性回歸模型,然后固定其他變量不變,去估計(jì)平均因果效應(yīng)(ATE):

用因果推斷解決的四類分析難題

但特征X與Y的關(guān)系可能是非線性的,如溫度temp,當(dāng)溫度升高時(shí),人們可能都去沙灘玩耍,買冰淇淋吃,銷量Y升高,但當(dāng)溫度過高時(shí),人們可能只想呆在家,這時(shí)銷量Y就下降了。

因此,我們不可以直接做線性回歸,而需要用殘差建模的方式去建立因果模型,殘差的思想就是DML的理論基礎(chǔ)。

DML是一種處理基于觀測(cè)數(shù)據(jù)進(jìn)行因果建模的方法,它可以去除偏差。根據(jù)Frisch-Waugh-Lovell定理,假設(shè)我們要估計(jì)Y = β·X+ θ·D+ E 中D的系數(shù)θ項(xiàng):

  • 先直接用X對(duì)Y做回歸,得到X估計(jì)Y得到的殘差,即剔除控制量X對(duì)Y的影響;
  • 再用X對(duì)D做回歸,得到X估計(jì)D得到的殘差,即剔除控制變量X對(duì)D的影響;
  • 最后用上面D的殘差對(duì)Y的殘差做回歸,就可以得到最終想估計(jì)的系數(shù)θ項(xiàng),也就是ATE(D對(duì)Y的因果效應(yīng)參數(shù));

雖然DML可以去混淆,讓我們可以只關(guān)注T對(duì)Y的影響。但是在T和Y殘差化后,我們?nèi)匀皇褂玫氖蔷€性模型。

當(dāng)價(jià)格只需在小范圍內(nèi)變化時(shí),這種方法可能還適用。

然而通常情況是,在價(jià)格較低的時(shí)候,價(jià)格增加1元,需求量可能減少2個(gè),而在價(jià)格較高的時(shí)候,價(jià)格增加1元,需求量可能只減少1個(gè),邊際效應(yīng)會(huì)逐漸遞減。

顯然,這是一種非線性關(guān)系。這時(shí),我們可以通過對(duì)目標(biāo)函數(shù)進(jìn)行轉(zhuǎn)換,實(shí)現(xiàn)非線性建模。

在非線性CATE估計(jì)時(shí),DML估計(jì)的是CATE的局部線性近似(導(dǎo)數(shù))。

舉個(gè)例子,假設(shè)我們通過模型對(duì)一個(gè)顧客估計(jì)出CATE=2,說明價(jià)格減少一個(gè)單位,銷量會(huì)多出2個(gè)單位。

但我們不能據(jù)此就做出決策直接在價(jià)格上減少10個(gè)單位。因?yàn)楫?dāng)價(jià)格過低時(shí),CATE可能就就會(huì)從2變成0.5。因此在處理非線性的CATE的時(shí)候,需要注意不同Treatment下的CATE可能是不同的。

雙重機(jī)器學(xué)習(xí)假設(shè)所有混淆變量(既影響D又影響Y的變量)都可以被觀測(cè),所以在做特征選擇時(shí)要格外注意盡量將這些特征加入模型。

同時(shí),機(jī)器學(xué)習(xí)自帶的正則化可以達(dá)到高維變量選擇的效果,我們可以通過拆分訓(xùn)練集和測(cè)試集的方式來解決過擬合帶來的偏差,提高估計(jì)準(zhǔn)確性。

2)Double Machine Learning

用戶APP消費(fèi)時(shí)長(zhǎng)一直是優(yōu)化視頻推薦的主要目標(biāo),但隨著消費(fèi)需求的多樣化,優(yōu)化用戶時(shí)長(zhǎng)對(duì)用戶活躍度的邊際效應(yīng)逐漸遞減。

目標(biāo):

  • 我們需要探索還有哪些潛在的用戶行為或者哪些內(nèi)容對(duì)用戶活躍度有正向因果影響;
  • 這些潛在抓手的因果效應(yīng)都是多少,以判斷其優(yōu)先級(jí);

由于用戶活躍度和非常多指標(biāo)都存在相關(guān)性(混淆變量較多),因此不能直接回歸,需要用DML來計(jì)算潛在抓手指標(biāo)對(duì)用戶活躍度的因果效應(yīng),比較因果效應(yīng)大小來判斷優(yōu)先級(jí);

特征選?。?/strong>

  • X:統(tǒng)計(jì)第一個(gè)時(shí)間周期的用戶消費(fèi)行為特征(習(xí)慣偏好、消費(fèi)行為、互動(dòng)行為、消費(fèi)內(nèi)容垂類、作者相關(guān)畫像信息等)
  • D:統(tǒng)計(jì)第二個(gè)時(shí)間周期的用戶消費(fèi)應(yīng)為特征(D為需要計(jì)算因果效應(yīng)的特征)
  • Y:第三個(gè)周期的用戶活躍天數(shù)

建模步驟:

隨機(jī)選取第二個(gè)時(shí)間周期的活躍用戶,拆分訓(xùn)練集和測(cè)試集,關(guān)聯(lián)第一個(gè)時(shí)間周期的特征指標(biāo)及第三個(gè)時(shí)間周期的因變量;

  1. 用訓(xùn)練集數(shù)據(jù),用XGB將X對(duì)Y做回歸,在測(cè)試集上得到X對(duì)Y的殘差,這步可以剔除控制變量X對(duì)Y的影響;
  2. 用訓(xùn)練集數(shù)據(jù),用XGB將X對(duì)D做回歸,在測(cè)試集上得到X對(duì)D的殘差,這步可以剔除控制變量X對(duì)D的影響;
  3. 用測(cè)試集數(shù)據(jù),對(duì)每個(gè)待評(píng)估指標(biāo)D,用線性回歸模型擬合上面的D殘差~Y殘差,得到每個(gè)D特征的因果效應(yīng)系數(shù)θ,θ表示D指標(biāo)每增加1%,用戶的周活躍度將提升θ%;

用因果推斷解決的四類分析難題

剔除不顯著的特征,整體來看按照提升用戶活躍情況的邊際效應(yīng)大小的邏輯來確認(rèn)優(yōu)化手段的優(yōu)先級(jí),優(yōu)化內(nèi)容的分發(fā)垂類結(jié)構(gòu)>提升用戶的內(nèi)容互動(dòng)量>優(yōu)化內(nèi)容生產(chǎn)者結(jié)構(gòu)。

#專欄作家#

趙小洛,公眾號(hào):趙小洛洛洛,人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析師一枚。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 好厲害(??ω?)?嘿

    來自浙江 回復(fù)