推薦產(chǎn)品經(jīng)理必知必會(huì)①:數(shù)據(jù)處理
策略產(chǎn)品經(jīng)理如何對(duì)數(shù)據(jù)進(jìn)行處理?這篇文章里,作者做了方法介紹以及相應(yīng)的內(nèi)容梳理,一起來(lái)看看吧。
在正式介紹推薦策略之前,我們需要了解推薦策略產(chǎn)品經(jīng)理如何對(duì)數(shù)據(jù)進(jìn)行處理,一切策略都離不開數(shù)據(jù)。重點(diǎn)在于:
- 理清公司已有數(shù)據(jù);
- 了解公司有哪些數(shù)據(jù)表;
- 判斷數(shù)據(jù)表內(nèi)的數(shù)據(jù)質(zhì)量如何。
一、常見(jiàn)的底層數(shù)據(jù)表
電商領(lǐng)域常見(jiàn)的7張離線Hive表:
切片表:按照時(shí)間分區(qū),將每天的新數(shù)據(jù)放在一個(gè)獨(dú)立的時(shí)間分區(qū)里,例如:7月1日與7月2日的不同。
增量表:匯總所有數(shù)據(jù),新增數(shù)據(jù)直接在原始表內(nèi)添加,不增加新分區(qū),訂單表與賣點(diǎn)數(shù)據(jù)均是增量表,因?yàn)槠湫枰x擇某個(gè)時(shí)段or歷史所有數(shù)據(jù),直接截取即可,如果存在不同分區(qū),截取就會(huì)很麻煩。
二、數(shù)據(jù)表加工
ETL(extract-transform-load,抽取——轉(zhuǎn)換——加載):從底層數(shù)據(jù)表抽取數(shù)據(jù),然后再清洗加工,最終得到上層表,這一過(guò)程不斷進(jìn)行。
三、數(shù)據(jù)歸一化與標(biāo)準(zhǔn)化
不同類型的數(shù)據(jù)需要轉(zhuǎn)化為同一量綱才能進(jìn)行比較,需要?dú)w一化/標(biāo)準(zhǔn)化,本質(zhì)上是一種線性變換(縮放+平移)。(歸一化≠標(biāo)準(zhǔn)化)
1. 歸一化
Min-Max(最小最大值)歸一化(最常用的方式):
x* = ( x ? min ) / ( max ? min )
歸一化后的數(shù)值處于[0,1]之間,實(shí)際數(shù)據(jù)中存在無(wú)解釋度的極大(?。┲?,故需要挑選合適的最大(小)值。
適用場(chǎng)景:數(shù)據(jù)分布集中。
均值歸一化:
x* = ( x ? mean ) / ( max ? min )
歸一化后的數(shù)值處于[-1,1]之間
適用場(chǎng)景:數(shù)據(jù)存在極值,但在業(yè)務(wù)視角這一極值是合理的。
Log對(duì)數(shù)函數(shù)歸一化:
歸一化后的數(shù)值處于[0,1]之間,非線性的歸一化方式,縮小數(shù)據(jù)間的差距,使之分布均衡。
適用場(chǎng)景:樣本數(shù)據(jù)跨度大,頭部極值出現(xiàn)頻率相對(duì)高。
2. 標(biāo)準(zhǔn)化
歸一化/標(biāo)準(zhǔn)化可以消除不同數(shù)據(jù)之間量綱差異巨大帶來(lái)的無(wú)可比擬性:
- 若異常值和噪聲較多,使用標(biāo)準(zhǔn)化數(shù)據(jù)處理方式可以消除不同特征差異權(quán)重的影響,使之權(quán)重趨同(歸一化保留了潛在權(quán)重關(guān)系)。
- KNN和K-Means等涉及距離的業(yè)務(wù)中,若各特征變量對(duì)最終距離影響一致,需要用標(biāo)準(zhǔn)化處理,其余應(yīng)用根據(jù)業(yè)務(wù)需求進(jìn)行。
以上介紹的數(shù)據(jù)處理方法在策略產(chǎn)品工作中會(huì)經(jīng)常用到,一定要熟悉哦!
本文由 @策略產(chǎn)品經(jīng)理規(guī)劃 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!