邏輯回歸在目標(biāo)用戶挖掘方面的應(yīng)用

1 評(píng)論 4286 瀏覽 15 收藏 10 分鐘

編輯導(dǎo)讀:企業(yè)為了更精準(zhǔn)地定位用戶,通常會(huì)開(kāi)展自己的用戶洞察項(xiàng)目。既包括分析現(xiàn)有用戶特征,也包括尋找符合目標(biāo)特征的用戶。更進(jìn)一步,想要針對(duì)用戶進(jìn)行精細(xì)化運(yùn)營(yíng),則可以用邏輯回歸算法。本文對(duì)此進(jìn)行了五個(gè)方面的分析,希望對(duì)你有幫助。

隨著用戶數(shù)據(jù)的豐富,越來(lái)越多的公司開(kāi)始開(kāi)展自己的用戶洞察項(xiàng)目。所謂用戶洞察,其輸出主要是兩種,其一是現(xiàn)有用戶的畫像:通俗的講就是通過(guò)現(xiàn)有用戶群去分析自己的目標(biāo)用戶特征;其二是目標(biāo)用戶的挖掘:以用戶畫像為標(biāo)準(zhǔn),去尋找符合目標(biāo)特征的用戶。

而這里的目標(biāo)落實(shí)到業(yè)務(wù)層面,其實(shí)可以是正面的也可以是負(fù)面的。正面的如注冊(cè)目標(biāo)、活躍目標(biāo)、下單目標(biāo)、復(fù)購(gòu)目標(biāo)等,毫無(wú)疑問(wèn),找到這些意向的用戶,能幫助我們提升業(yè)績(jī);而負(fù)面的流失目標(biāo)、沉睡目標(biāo)、投訴目標(biāo),也自有其價(jià)值,我們預(yù)先知道可能產(chǎn)生這類行為的用戶,就能未雨綢繆提前做好應(yīng)對(duì)措施。

但是如果僅僅知道用戶是否是我們的目標(biāo)用戶還不夠,我們還需要知道其意向度。比如同樣是下單目標(biāo)用戶:60%的下單可能和90%的下單可能,對(duì)我們的價(jià)值肯定是不一樣的。從精細(xì)化運(yùn)營(yíng)考慮,這兩個(gè)用戶有必要采用不同的運(yùn)營(yíng)策略。

而要想在給用戶進(jìn)行分類的同時(shí),又想知道他屬于某個(gè)類的置信度,那邏輯回歸算法能較好的滿足我們的需求。

邏輯回歸(Logistic Regression)是一種用于解決二分類(0 or 1)問(wèn)題的機(jī)器學(xué)習(xí)方法,用于估計(jì)某種事物的可能性。比如某用戶購(gòu)買某商品的可能性,某病人患有某種疾病的可能性,以及某廣告被用戶點(diǎn)擊的可能性等。

這次我們以挖掘某出行類產(chǎn)品的用戶下單意向?yàn)樾枨?,?lái)介紹邏輯回歸算法的實(shí)際應(yīng)用。

一、需求背景

基于現(xiàn)有用戶的下單情況,來(lái)預(yù)測(cè)新用戶的下單的可能性。

二、特征圈定

首先我們要根據(jù)經(jīng)驗(yàn)圈定出可能對(duì)用戶下單產(chǎn)生影響的特征。

我們可以將相關(guān)特征分為通用特征和業(yè)務(wù)特征。通用特征即無(wú)論分析何種場(chǎng)景都可以參考的特征,業(yè)務(wù)特征指僅適用于具體分析場(chǎng)景的特征。

因?yàn)榇舜畏治龅膱?chǎng)景是:分析用戶租賃汽車類出行工具的可能性,其相關(guān)特征可以從如下幾方面考慮。

通用特征:

  • 性別
  • 年齡
  • 所在地
  • 經(jīng)濟(jì)水平

業(yè)務(wù)特征:

對(duì)于汽車租賃類產(chǎn)品,用戶租賃的目的一是日常上下班代步,二是節(jié)假日出行。

那么基于上下班代步需求,他的業(yè)務(wù)特征可以是:

  • 公司——家的通勤距離
  • 非駕車出行時(shí)的通勤時(shí)長(zhǎng)

而節(jié)假日出行,可提煉的特征:

  • 出行頻次
  • 出行距離

除此之外,還有一種特征我們也需要考慮:APP用戶行為。

三、特征數(shù)據(jù)獲得

“巧婦難為無(wú)米之炊”,要想做數(shù)據(jù)挖掘前提必然是有足夠的數(shù)據(jù)源,而數(shù)據(jù)的獲得可以分為自有和外采兩類。

對(duì)于大部分的通用特征,我們往往通過(guò)注冊(cè)、身份認(rèn)證等渠道可以讓用戶主動(dòng)給提供。而經(jīng)濟(jì)水平特征的獲得可以通過(guò)短信分析,若用戶未授權(quán)的短信權(quán)限的話,也可以通過(guò)所居住小區(qū)的平均房?jī)r(jià)預(yù)估用戶經(jīng)濟(jì)水平。用戶小區(qū)通過(guò)夜間GPS定位判斷,房?jī)r(jià)則可以通過(guò)爬蟲獲得。

業(yè)務(wù)特征中的APP用戶行為,可以通過(guò)APP埋點(diǎn)獲得,用戶的訪問(wèn)路徑:注冊(cè)-登錄-首頁(yè)-車輛列表頁(yè)-車輛詳情頁(yè)-預(yù)訂頁(yè)-支付頁(yè)等等。而通勤距離時(shí)間、節(jié)假日出行這些數(shù)據(jù),可以通過(guò)向第三方采購(gòu)。移動(dòng)聯(lián)通這種通訊公司往往可以通過(guò)信號(hào)基站獲得用戶的這類數(shù)據(jù)。

四、建立基模

我們?nèi)Χ藨{經(jīng)驗(yàn)推測(cè)的特征數(shù)據(jù)后,就可以進(jìn)行建模了。上述的特征雖說(shuō)是我們?nèi)珣{經(jīng)驗(yàn)所得,并不一定都會(huì)影響用戶下單。即使有所關(guān)聯(lián),其相關(guān)程度也會(huì)分個(gè)三六九等,而且可能特征與特征之間也會(huì)有一定的相關(guān)性,所有這些問(wèn)題,我們后續(xù)都需要進(jìn)行相應(yīng)處理。

但是這些并不影響,我們先用所有特征構(gòu)建一個(gè)基礎(chǔ)模型,得到最原始的擬合情況,作為我們后續(xù)不斷調(diào)整的一個(gè)參照組。

五、特征工程

1. 數(shù)據(jù)標(biāo)準(zhǔn)化

很多算法對(duì)特征的數(shù)量級(jí)都是敏感的,邏輯回歸也不例外。因此,我們最好將數(shù)據(jù)集中的特征轉(zhuǎn)換成相同的量綱,從而消除不同量綱對(duì)算法造成的負(fù)面影響,我們將這個(gè)過(guò)程稱為數(shù)據(jù)標(biāo)準(zhǔn)化。

實(shí)際上,即使原本數(shù)據(jù)的量綱已經(jīng)是一樣的了,多一步標(biāo)準(zhǔn)化也不會(huì)產(chǎn)生負(fù)面影響。

在scikit-learn中,常用的標(biāo)準(zhǔn)化方式為:

  • 均值標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化(StandardScaler)
  • 最小最大值標(biāo)準(zhǔn)化(MinMaxScaler)

2. 去除多重共線性

在多元線性回歸中,自變量與應(yīng)變量應(yīng)該要存在線性關(guān)系,但是如果自變量之間存在線性關(guān)系,那么這種情況我們就稱之為多重共線性。多重共線性會(huì)造成權(quán)重的不穩(wěn)定性,甚至?xí)霈F(xiàn)擬合后的權(quán)重與相關(guān)系數(shù)呈現(xiàn)相反的結(jié)果。

不過(guò)多重共線性并不會(huì)影響擬合優(yōu)度,如果我們僅追求模型的擬合優(yōu)度,而不考慮權(quán)重系數(shù)的大小,則可以不處理多重共線性。

我們一般使用方差膨脹系數(shù)(VIF)來(lái)檢測(cè)多元線性回歸中的多重共線性。如果變量之間存在多重共線性,則得到的VIF值就會(huì)較高,當(dāng)VIF值大于10時(shí),就意味著存在嚴(yán)重的多重共線性。

VIF的計(jì)算我們可以直接調(diào)用python的statsmodels.stats.outliers_influence 包里的variance_inflationfactor方法。

3. RFECV特征選擇法

在建立模型時(shí),特征并非越多越好,有些特征可能對(duì)模型質(zhì)量沒(méi)有什么改善,我們可以直接刪除這類特征,所以特征選擇是建模非常重要的一個(gè)環(huán)節(jié)。

特征選擇的方法很多,這次我們介紹RFECV方法。

RFECV分成兩個(gè)部分:

  1. RFE:遞歸特征消除,用來(lái)對(duì)特征進(jìn)行重要性評(píng)級(jí)
  2. CV:交叉驗(yàn)證,在特征評(píng)級(jí)后,通過(guò)交叉驗(yàn)證,獲得最佳數(shù)量的特征

其具體過(guò)程如下:

RFE階段:

  1. 初始的特征集(若之前操作有進(jìn)行特征刪除,則最新的特征為初始特征集)作為所有可用的特征
  2. 使用當(dāng)前特征進(jìn)行建模,然后計(jì)算每個(gè)特征的重要性
  3. 刪除最不重要的一個(gè)(或多個(gè)特征),更新特征集
  4. 跳轉(zhuǎn)到步驟2,直到完成所有的特征重要性評(píng)級(jí)

CV階段:

  1. 根據(jù)RFE階段確定的特征重要性,依次選擇不同數(shù)量的特征
  2. 對(duì)選定的特征進(jìn)行交叉驗(yàn)證
  3. 確定平均分最高的特征數(shù)量,完成特征選擇

在上述多步清洗操作過(guò)程中,我們可以每完成一個(gè)環(huán)節(jié),看一下新模型的擬合優(yōu)度。有時(shí)候處理的步驟并非越多,擬合優(yōu)度就越好。我們可以根據(jù)實(shí)際需要,選擇合適擬合優(yōu)度的模型,對(duì)那些未下單用戶進(jìn)行預(yù)估,得到其最終下單的可能性。

#專欄作家#

唐豪杰,人人都是產(chǎn)品經(jīng)理專欄作家,微信公眾號(hào):弈囈(ID:YiYi_TANG7980),互聯(lián)網(wǎng)運(yùn)營(yíng)從業(yè)

本文由 @唐豪杰 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 概念拋的漂亮,沒(méi)有任何實(shí)操介紹。

    來(lái)自北京 回復(fù)