基于XGBoost特征選擇方法在業(yè)務(wù)中的應(yīng)用

0 評(píng)論 1571 瀏覽 8 收藏 6 分鐘

本文介紹了一種使用XGBoost機(jī)器學(xué)習(xí)方法來篩選具有高轉(zhuǎn)化潛力的客戶群體的策略。通過實(shí)例分析,我們展示了如何利用XGBoost模型進(jìn)行特征選擇,以及如何根據(jù)這些特征設(shè)計(jì)精準(zhǔn)的營(yíng)銷活動(dòng),顯著提高營(yíng)銷效果和業(yè)務(wù)收益。

一、應(yīng)用場(chǎng)景

在營(yíng)銷活動(dòng)名單下發(fā)以及空網(wǎng)付費(fèi)券包的人群篩選等推廣環(huán)節(jié)中,很重要的一個(gè)環(huán)節(jié)是如何準(zhǔn)確挑選出最有潛力的客戶進(jìn)行線上線下的營(yíng)銷接觸,以求增加下單轉(zhuǎn)化,從而提升業(yè)務(wù)效益。

因此,在各類營(yíng)銷活動(dòng)中,我們需面臨如何準(zhǔn)確識(shí)別有效用戶的挑戰(zhàn)。

本文將提出并應(yīng)用一種機(jī)器學(xué)習(xí)方法—XGBoost特征選擇進(jìn)行更為精細(xì)的營(yíng)銷人群識(shí)別,從而協(xié)助我們更準(zhǔn)確篩選出潛在的營(yíng)銷目標(biāo)群體。

二、解決方案

通常營(yíng)銷目標(biāo)群體含括了許多不同的特征屬性,如年齡、性別、寄件頻率、興趣區(qū)域、居住地、手機(jī)型號(hào)、常用寄件/收件類型等等。

我們可以運(yùn)用機(jī)器學(xué)習(xí)的方法來確定具有高潛力營(yíng)銷價(jià)值的目標(biāo)群體特征,并據(jù)此制定針對(duì)性的營(yíng)銷策略。

1. XGBoost概念

XGBoost是一種機(jī)器學(xué)習(xí)系統(tǒng),全稱是eXtreme Gradient Boosting,簡(jiǎn)稱XGB,是GBDT算法的一個(gè)變種。

它是一種監(jiān)督算法,是boost算法的一種,也屬于集成學(xué)習(xí),是一種伸縮性強(qiáng)、便捷的可并行構(gòu)建模型的Gradient Boosting算法。它高效地實(shí)現(xiàn)了GBDT算法并進(jìn)行了算法和工程上的許多改進(jìn),可用于分類、回歸,排序問題。

由陳天奇等人于2014年開發(fā),以優(yōu)化的方式增強(qiáng)其性能和速度。逐漸被越來越多的數(shù)據(jù)科學(xué)家采用,并在許多機(jī)器學(xué)習(xí)比賽中脫穎而出。

2. XGBoost基本原理

XGBoost算法的基本原理如下:

1)初始化一個(gè)弱學(xué)習(xí)器(通常是決策樹),并計(jì)算該學(xué)習(xí)器的預(yù)測(cè)值和損失函數(shù);

2)算法計(jì)算損失函數(shù)對(duì)于當(dāng)前預(yù)測(cè)值的梯度。梯度可以被理解為損失函數(shù)在當(dāng)前預(yù)測(cè)值處的斜率,它給出了優(yōu)化損失函數(shù)的方向;

3)算法使用新的學(xué)習(xí)器去預(yù)測(cè)梯度,而非真實(shí)的標(biāo)簽。新的預(yù)測(cè)值等于原始預(yù)測(cè)值加上學(xué)習(xí)率乘以梯度的預(yù)測(cè)值;

算法反復(fù)執(zhí)行步驟2和步驟3,直到損失函數(shù)達(dá)到最小值或者達(dá)到預(yù)設(shè)的迭代次數(shù)。最后,所有學(xué)習(xí)器的預(yù)測(cè)值被加權(quán)求和,得到最終的預(yù)測(cè)結(jié)果。

3. 數(shù)據(jù)模型應(yīng)用流程

在探索中,我們總結(jié)了一套適用于線增業(yè)務(wù)中的數(shù)據(jù)建模流程,具體如下:

三、應(yīng)用案例

以某頭部App電商退貨目標(biāo)客戶篩選為案例,通過xgboost特征選擇方法實(shí)現(xiàn)目標(biāo)人群的圈定,通過如下小程序彈窗形式進(jìn)行營(yíng)銷。

我們基于前6個(gè)月的歷史數(shù)據(jù)提取樣本:

1)目標(biāo)變量: 退貨率;

2)自變量:會(huì)員等級(jí)、手機(jī)品牌、性別、年齡、城市等等(由于類別存在中文分類,故采取獨(dú)熱編碼進(jìn)行轉(zhuǎn)化)。

在完成樣本預(yù)處理后,我們構(gòu)建XGBoost特征重要度模型(采用網(wǎng)格搜索尋找模型最佳參數(shù)),核心代碼如下:

通過模型,我們完成特征重要度輸出:

根據(jù)模型結(jié)果輸出策略,電商退貨率高的客群特征標(biāo)簽(也可以進(jìn)行特征交叉組合),進(jìn)而與電商收件高且無退貨的客群做特征交集,從而篩選出一個(gè)目標(biāo)客群來做精準(zhǔn)營(yíng)銷。

活動(dòng)策略通過AB測(cè)試評(píng)估,實(shí)驗(yàn)組(通過本文提到XGBoost篩選特征人群)整體下單轉(zhuǎn)化相較對(duì)照組提升30+%,投放期間帶來直接增收數(shù)十萬元。

【備注:對(duì)照組1:為業(yè)務(wù)人員根據(jù)經(jīng)驗(yàn)圈選人群規(guī)則;對(duì)照組2:根據(jù)傳統(tǒng)決策樹方法圈選的人群規(guī)則】

本文由 @佑佑和博博~ 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!