別信啤酒與尿布!推薦算法的真相是……
“揭秘推薦算法真相,啤酒尿布傳說背后?!?在推薦算法領(lǐng)域,啤酒與尿布的故事廣為流傳,但其真相究竟如何?現(xiàn)實中的推薦策略又是怎樣運(yùn)作的呢?
一提人工智能大數(shù)據(jù),必有人提啤酒與尿布,有意思的是,都2025年了,還有人信這個老掉牙的都市傳說。今天我們系統(tǒng)看一下。?
1?站在背后的關(guān)聯(lián)規(guī)則
支持啤酒與尿布故事的,是關(guān)聯(lián)規(guī)則算法。注意:關(guān)聯(lián)規(guī)則算法本身沒啥問題,這是一種發(fā)現(xiàn)關(guān)聯(lián)關(guān)系(注意:不是因果關(guān)系哦)的手段,并且它的算法原理非常簡單,需要的數(shù)據(jù)也非常少,因此適用范圍非常廣。假設(shè)有6種產(chǎn)品,ABCDEF,一個客人買了AB去結(jié)賬,收銀員打出一張小票,上邊有AB產(chǎn)品的名稱、價格,我們可以用0、1代表是否有該商品,簡單把小票表示成:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??? ? ? ?類似地,如果有5張訂單,可以表示成:
注意,即使沒有計算,用肉眼也能看到,似乎ABC三個產(chǎn)品在訂單里同時出現(xiàn)的幾率很高,這就是關(guān)聯(lián)規(guī)則的基本思路:找到同時出現(xiàn)頻率高的組合。只不過,我們需要用一些指標(biāo)來衡量:到底什么算高。?因為有六個商品,所以同時出現(xiàn)的組合有很多種:A+B,A+B+C等,我們從最簡單的兩兩組合開始計算,再算三三、四四……計算組合的時候,我們希望組合出現(xiàn)的頻率越高越好,因此有了支持度概念:
兩個商品的購買可能有先后順序,比如先A后B,這時候可以算購買A的情況下,用戶購買B的概率,從而決定在用戶購買A以后推B產(chǎn)品,或者是C、D產(chǎn)品。因此引入置信度概念:
注意,雖然算出來購買A以后有75%概率購買B,但是不一定非等到用戶買A再推薦B。如這個小例子里,直接推B也有80%購買率,顯然非等到買了A再推B會很不劃算,購買率還跌了,因此引入提升度概念:
支持度、置信度、提升度的計算都很簡單,理論上,只需要設(shè)定支持度與置信度的要求,之后按一定順序遍歷所有組合(比如Apriori算法),即能找出所有符合條件的組合。這種方法最大的優(yōu)勢就是簡單,計算方法、計算邏輯都簡單,且需要的數(shù)據(jù)很少,只要有訂單數(shù)據(jù)即可,數(shù)據(jù)采集永遠(yuǎn)是算法的頭號大敵,一個需要數(shù)據(jù)少的方法,自然會被極其廣泛的運(yùn)用。特別是應(yīng)用于購物籃分析。然而,運(yùn)用歸運(yùn)用,你真在哪個超市見過啤酒與尿布堆在一起的嗎。很快講故事的人便發(fā)現(xiàn)了這個bug,于是改口說:國外的超市……欺負(fù)大家出國少呀。那事實的真相到底是啥呢?
2.?為啥現(xiàn)實中不存在
很遺憾,啤酒與尿布在現(xiàn)實中不存在。首先因為啤酒與尿布是teradata公司的銷售編出來的故事。它完美符合了賣科技產(chǎn)品需要“意料之外,情理之中”的講故事原則,因此才流傳廣泛。在實際運(yùn)用的時候,無論是技術(shù)上還是業(yè)務(wù)上,類似“啤酒與尿布”的完美案例都不存在。從技術(shù)上看,關(guān)聯(lián)規(guī)則作為一種無監(jiān)督找規(guī)律方法,更適合做探索性分析,不太適合直接指向一個可落地的SKU組合。注意,上邊的例子是高度濃縮的,所以看起來簡單可行。比如啤酒,實際上還包含了品牌、包裝、價格、是否促銷、是否臨近保質(zhì)期等眾多因素。實際上SKU極其龐大,且單個SKU的數(shù)據(jù)非常零散。如果只籠統(tǒng)地用“啤酒”這個大品類做關(guān)聯(lián),得出的數(shù)據(jù)幾乎沒啥指導(dǎo)意義。如果細(xì)到某一個具體價位具體保質(zhì)期的SKU, 比如“Corona/科羅娜啤酒330ml*24瓶178元非折扣非臨期”與“寶適綠幫紙尿褲S164新生嬰兒超薄透氣干爽款155元”單個具體SKU之間的支持度和置信度都非常低,很難達(dá)到落地的程度。這是導(dǎo)致啤酒與尿布不會出現(xiàn)在超市里根本原因。隨便一個3米5門頭的小超市尿布至少幾十款,啤酒至少幾十款,到底哪個該擺在一起!還要考慮啤酒的冷藏問題,總不能在冰柜里放尿布吧。至于幾百上千平米大超市,啤酒SKU數(shù)幾千款,尿布幾千款,貨架長達(dá)數(shù)十米,只能分開放在酒水飲料區(qū)和母嬰用品區(qū)。這倆擺在一起,肯定被商場主管活活毆打致死。從業(yè)務(wù)上講,關(guān)聯(lián)規(guī)則同所有數(shù)學(xué)、統(tǒng)計學(xué)模型一樣,只能說明兩個數(shù)字之間有關(guān)聯(lián)關(guān)系,無法論證任何實際意義上邏輯關(guān)系。“媽媽們買尿布的時候會順便給爸爸買啤酒”的解釋,完全就是為了圓故事而圓故事。如果真站在買尿布的媽媽的角度,她有100個理由去買更更值得買的東西,比如干紙巾和濕紙巾。給BB換過尿布的人都知道,那紙巾用起來簡直像潑水一樣快。有更直接、更明確的驅(qū)動力存在,為啥要舍近求遠(yuǎn)。
3.?現(xiàn)實中是怎么玩的
本質(zhì)上,消費者的決策是多因素的,生理性需求,認(rèn)知層次,產(chǎn)品價格,材質(zhì),廣告、宣傳、都會影響消費者最終決策。因此想帶動關(guān)聯(lián)銷售,方法多的很。最直接的,基于業(yè)務(wù)規(guī)律的推薦,也就是俗稱的硬規(guī)則。比如有的書就上中下冊,拆開了就是沒頭沒尾;有的藥就是要一起吃,亂吃會死人。這些商品有固定的規(guī)律。這時候就不需要看數(shù)據(jù),而是根據(jù)業(yè)務(wù)規(guī)律直接做推薦。有些不是硬規(guī)則,但是是人們約定俗成的習(xí)慣。比如出去燒烤,就是需要碳、爐子、簽子、醬油、雞翅、可樂;啤酒就是和花生米、小龍蝦、黃瓜拉皮一起吃;比如方便面就是配火腿腸。這種是軟規(guī)則。這些基于用戶習(xí)慣的軟規(guī)則,也能成為推薦的工具。比如做生鮮電商,可以一件件散著賣,也能打包一個“養(yǎng)秋膘火鍋套裝”把羊肉卷、湯底料、丸子、香菇等涮鍋食材打包賣。有些曾經(jīng)不是規(guī)則,但是經(jīng)過商家的宣傳廣告,植入進(jìn)用戶腦海的規(guī)則。比如女生各種化妝品,男生各種游戲皮膚、套裝;比如最經(jīng)典的:怕上火喝XXX;比如學(xué)數(shù)據(jù)分析要ESP套餐。這些是基于營銷宣傳的偽規(guī)則。雖然沒有啥科學(xué)道理,但是用戶能接受,就能成為推薦準(zhǔn)則。當(dāng)然,還有最簡單粗暴的,基于打折的惠規(guī)則。最簡單的,用戶加入購物車以后,發(fā)現(xiàn)自己已經(jīng)買了400,還有一張滿500減100的券能用。這時候用戶急著找的就是“哪里有不雞肋的100元東西可以買”。很有可能她會選紙巾、沐浴露、米面油這種能存放的硬通貨。這些都是業(yè)務(wù)方能發(fā)揮主觀能動性創(chuàng)造出的規(guī)則。所以請同學(xué)們牢記,并轉(zhuǎn)發(fā)給業(yè)務(wù)方看:不存在一個不用你努力,就靜靜躺在數(shù)據(jù)庫里等著被你的數(shù)據(jù)分析師發(fā)現(xiàn)的神秘力量。在2025年,沒有誰家的產(chǎn)品是100%獨特的,想業(yè)績做的比別人好,關(guān)鍵是自己得努力做。當(dāng)然,業(yè)務(wù)方想發(fā)揮主觀能動性,也是需要數(shù)據(jù)支持的(如下圖):
本文由人人都是產(chǎn)品經(jīng)理作者【接地氣的陳老師】,微信公眾號:【接地氣的陳老師】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!