互聯(lián)網(wǎng)電商平臺個性化智能推薦系統(tǒng)設(shè)計難在哪里

7 評論 32984 瀏覽 450 收藏 13 分鐘

雖然從市場用戶調(diào)研到互聯(lián)網(wǎng)電商平臺產(chǎn)品設(shè)計,再到上線運營推廣,覆蓋的面很寬,但我仔細對整個互聯(lián)網(wǎng)電商平臺知識體系梳理了一遍,其中,最為關(guān)鍵和難度最高的就是個性化推薦系統(tǒng)、搜索和大數(shù)據(jù)系統(tǒng),其實不難看出,個性化推薦系統(tǒng)和搜索底層都是基于大數(shù)據(jù),所以最終各條產(chǎn)品線和技術(shù)都歸集到大數(shù)據(jù)系統(tǒng)上,后續(xù)我會逐一對每個難點進行分析,本篇就針對用戶個性化推薦系統(tǒng)設(shè)計進行分享。

通過對多個大型互聯(lián)網(wǎng)電商平臺的跟蹤研究,個性化智能推薦系統(tǒng)設(shè)計建設(shè)由三步構(gòu)成:第一建立平臺用戶行為的召回模型,維度基于用戶歷史行為數(shù)據(jù)召回、用戶偏好召回和用戶地域召回來實現(xiàn),用戶歷史行為數(shù)據(jù)召回基于用戶歷史瀏覽、點擊、購買、評論、分享、收藏、關(guān)注等觸點,分類推薦在線相關(guān)、在線相似、離線相關(guān)、離線相似行為;基于用戶偏好召回是基于用戶歸類畫像與平臺多屏互通融合;基于用戶地域召回是基于用戶地域的網(wǎng)格化來實現(xiàn)地域行為推薦算法;第二是召回模型匹配算法,利用高斯邏輯回歸及多維算法來得出與用戶召回行為的匹配商品及廣告信息;第三是平臺針對匹配模型推薦結(jié)果的排序算法,基于用戶交互日志通過模型訓練特征權(quán)重,采用排序算法來實現(xiàn)自動匹配個性化推薦。在系統(tǒng)實現(xiàn)技術(shù)架構(gòu)上,為支撐個性化推薦系統(tǒng)平均至少每周進行算法迭代,采用HBase、Spark及MapReduce等系統(tǒng)架構(gòu),在個性化推薦系統(tǒng)優(yōu)化升級中,與DNN融合的速度越來越快。

個性化智能推薦最終的目標就是讓一個普通訪問電商平臺的用戶,在進入平臺頁面時,系統(tǒng)能夠根據(jù)用戶日常的行為偏好和習慣,用戶心理想要購買的商品,在還沒有發(fā)生點擊行為時,系統(tǒng)能自動推薦到用戶訪問的頁面,提升平臺用戶下單轉(zhuǎn)化率。即使在用戶沒有訪問平臺時,企業(yè)通過與用戶日常瀏覽互聯(lián)網(wǎng)行為軌跡的平臺進行聯(lián)盟合作,在聯(lián)盟平臺推送用戶希望購買的商品廣告和鏈接,刺激和引導用戶點擊購買。即使在用戶沒有打開電腦時,能夠通過信息和郵件的方式,根據(jù)用戶平常的購買頻次和周期,在特定的時間推送到用戶手機和電腦。

平臺前端實現(xiàn)用戶千人千面,而后端需要建立復雜的用戶全網(wǎng)行為數(shù)據(jù)采集、存儲加工、數(shù)據(jù)建模和用戶畫像過程,單純采集互聯(lián)網(wǎng)電商平臺數(shù)據(jù),僅能達到個性化推薦效果的40%左右,如果要提升個性化推薦的效果,就必須覆蓋用戶全網(wǎng)行為軌跡,甚至用戶線下的行為軌跡,這就形成了以互聯(lián)網(wǎng)電商平臺為核心的生態(tài)系統(tǒng),也能說明阿里、騰訊為什么要控股或收購各行業(yè)企業(yè)的原因。

1、用戶行為數(shù)據(jù)采集

首先需要在采集的互聯(lián)網(wǎng)平臺進行埋點,在頁面放置“蜘蛛”探針、采集業(yè)務(wù)系統(tǒng)所有訪問和操作日志、從數(shù)據(jù)庫中提取業(yè)務(wù)數(shù)據(jù),采集回來存儲在數(shù)據(jù)倉庫,采集服務(wù)器組負責將采集到的日志信息生成文件,落地到存儲設(shè)備;ETL服務(wù)器負責將日志文件和結(jié)構(gòu)化數(shù)據(jù)導入Hadoop分析集群,并將分析結(jié)果導出到Oracle數(shù)據(jù)庫;數(shù)據(jù)解析服務(wù)器負責連接Hadoop環(huán)境,完成數(shù)據(jù)分析各項計算;Hadoop和Hive提供數(shù)據(jù)分布式存儲和計算的基礎(chǔ)框架;調(diào)度實現(xiàn)以上數(shù)據(jù)導入、分析和結(jié)果導出的所有任務(wù)的統(tǒng)一調(diào)度;數(shù)據(jù)展示服務(wù)器負責數(shù)據(jù)分析結(jié)果的多種形式展現(xiàn)。

個性化圖片2

目前做大數(shù)據(jù)平臺的公司,大多數(shù)采集的數(shù)據(jù)指標和輸出的可視化報表,都存在幾個關(guān)鍵問題:

  1. 采集的數(shù)據(jù)都是以渠道、日期、地區(qū)統(tǒng)計,無法定位到具體每個用戶;
  2. 計算統(tǒng)計出的數(shù)據(jù)都是規(guī)模數(shù)據(jù),針對規(guī)模數(shù)據(jù)進行挖掘分析,無法支持;
  3. 數(shù)據(jù)無法支撐系統(tǒng)做用戶獲客、留存、營銷推送使用;

所以,要使系統(tǒng)采集的數(shù)據(jù)指標能夠支持平臺前端的個性化行為分析,必須圍繞用戶為主線來進行畫像設(shè)計,在初期可視化報表成果基礎(chǔ)上,將統(tǒng)計出來的不同規(guī)模數(shù)據(jù),細分定位到每個用戶,使每個數(shù)據(jù)都有一個用戶歸屬。將分散無序的統(tǒng)計數(shù)據(jù),在依據(jù)用戶來銜接起來,在現(xiàn)有產(chǎn)品界面上,每個統(tǒng)計數(shù)據(jù)都增加一個標簽,點擊標簽,可以展示對應(yīng)每個用戶的行為數(shù)據(jù),同時可以鏈接到其他統(tǒng)計數(shù)據(jù)頁面。由此可以推導出,以用戶為主線來建立數(shù)據(jù)采集指標維度:用戶身份信息、用戶社會生活信息、用戶資產(chǎn)信息、用戶行為偏好信息、用戶購物偏好、用戶價值、用戶反饋、用戶忠誠度等多個維度,依據(jù)建立的采集數(shù)據(jù)維度,可以細分到數(shù)據(jù)指標或數(shù)據(jù)屬性項。

① 用戶身份信息維度

性別,年齡,星座,居住城市,活躍區(qū)域,證件信息,學歷,收入,健康等。

② 用戶社會生活信息維度

行業(yè),職業(yè),是否有孩子,孩子年齡,車輛,住房性質(zhì),通信情況,流量使用情況……

③ 用戶行為偏好信息

是否有網(wǎng)購行為,風險敏感度,價格敏感度,品牌敏感度,收益敏感度,產(chǎn)品偏好,渠道偏好……

④ 用戶購物偏好信息

品類偏好,產(chǎn)品偏好,購物頻次,瀏覽偏好,營銷廣告喜好,購物時間偏好,單次購物最高金額……

⑤ 用戶反饋信息維度

用戶參與的活動,參與的討論,收藏的產(chǎn)品,購買過的商品,推薦過的產(chǎn)品,評論過的產(chǎn)品……

用戶畫像標題體系設(shè)計

個性化圖片3

通過建立的用戶行為數(shù)據(jù)采集指標體系后,將其再細分到數(shù)據(jù)屬性值,進入這個環(huán)節(jié),就需要依賴各種建立的數(shù)據(jù)模型或函數(shù)算法,來對平臺用戶進行特征提取分析,計算出用戶對應(yīng)的畫像數(shù)據(jù)值,這才是用戶畫像過程中最為關(guān)鍵的環(huán)節(jié)。舉個例子:如果一個用戶訪問瀏覽一個電商平臺,注冊時沒有填寫性別,平臺如何通過用戶產(chǎn)生的訪問瀏覽行為,來計算出用戶的性別。絕大多數(shù)電商平臺都是通過用戶的瀏覽商品,為其推薦相同或相關(guān)的商品或相關(guān)商品類目商品,用戶瀏覽了連衣裙,并不能說明用戶就是女性,因此,要能夠更加準確的向用戶推薦個性化商品,就必須通過數(shù)據(jù)特征提取,函數(shù)算法來計算出用戶的性別。

個性化圖片4

2、數(shù)據(jù)存儲加工

用戶行為數(shù)據(jù)采集后,需要存儲在數(shù)據(jù)倉庫,對采集的原始數(shù)據(jù)進行ETL加工處理,首先需要處理掉存儲的無效重復數(shù)據(jù),對于用戶行為沒有影響或重復數(shù)據(jù),對非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化處理,并對數(shù)據(jù)進行補缺、替換、數(shù)據(jù)合并、數(shù)據(jù)拆分、數(shù)據(jù)加載和異常處理。(這個環(huán)節(jié)更多是技術(shù)程序處理)

3、數(shù)據(jù)建模及用戶特征提取、用戶畫像

對于加工處理后的用戶行為數(shù)據(jù),利用開源的機器學習分類器包,調(diào)用封裝好的各種數(shù)據(jù)函數(shù),神經(jīng)網(wǎng)絡(luò)、支持向量機、貝葉斯等對數(shù)據(jù)進行聚類、分類和預測,根據(jù)第一步設(shè)計的用戶畫像標簽體系,對訪問平臺的用戶計算行為特征值,用戶特征提取并不是針對所有的標簽維度,對于優(yōu)先關(guān)鍵標簽,如果從用戶數(shù)據(jù)庫查詢不到特征值,就需要調(diào)用R函數(shù)對其進行計算,最終得出每個標簽維度的特征值,依據(jù)特征屬性值,就可以對用戶進行畫像處理。

個性化圖片5

按照用戶屬性和行為特征對全部用戶進行聚類和精細化的客戶群細分,將用戶行為相同或相似的用戶歸類到一個子庫,這樣就可以將電商平臺所有的用戶劃分為N個不同子庫,每個子庫用戶擁有相同或相似的行為特征,到這一步,電商平臺就可以按照不同子庫行為對其進行個性化智能推薦。

個性化圖片6

目前國內(nèi)主流電商平臺,在進行個性化智能推薦系統(tǒng)升級過程,都在逐步向DNN滲透和擴展,也是未來個性化智能推薦必經(jīng)之路。在現(xiàn)有用戶畫像、用戶屬性打標簽、客戶和營銷規(guī)則配置推送、同類型用戶特性歸集分庫模型基礎(chǔ)上,未來將逐步擴展機器深度學習功能,通過系統(tǒng)自動搜集分析前端用戶實時變化數(shù)據(jù),依據(jù)建設(shè)的機器深度學習函數(shù)模型,自動計算匹配用戶需求的函數(shù)參數(shù)和對應(yīng)規(guī)則,推薦系統(tǒng)根據(jù)計算出的規(guī)則模型,實時自動推送高度匹配的營銷活動和內(nèi)容信息。

個性化圖片7

歸根結(jié)底,無論是做個性化智能推薦還是大數(shù)據(jù)進行研究探索,最終都是要達到讓系統(tǒng)更加智能的準確識別和推送用戶心理想要的產(chǎn)品或內(nèi)容,也就是互聯(lián)網(wǎng)平臺與用戶前端交互的效果,使系統(tǒng)具有人類大腦的效果,更加智能、甚至學會思考。

 

作者簡介:劉永平 ,10年以上互聯(lián)網(wǎng)電商、互聯(lián)網(wǎng)金融項目實操經(jīng)驗,任職產(chǎn)品總監(jiān),產(chǎn)品咨詢專家,曾親自主導參與項目超過15個,10個以上從0到1實操經(jīng)驗。

免責聲明:本文是作者通過多年項目實操,積累分享的干貨,全部屬于原創(chuàng),如需轉(zhuǎn)載分享,必須注明作者和出處,并關(guān)注微信公眾號“互聯(lián)網(wǎng)金融干貨”,微信號:WYGH188,如沒有注明作者和出處,會追究法律責任。

本文由 @劉永平 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理?,未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 進銷存

    回復
  2. 用戶的身份信息,社會生活信息,這些不算是個人隱私嗎?

    回復
    1. 互聯(lián)網(wǎng)app前無隱私

      回復
  3. 寫的好

    來自廣東 回復
  4. 請問作為電子商務(wù)的pm要對機器學習掌握到什么程度和范圍呢

    回復
  5. 來自江蘇 回復
  6. 點贊

    來自北京 回復