白話大數(shù)據(jù):大數(shù)據(jù)與機(jī)器學(xué)習(xí)在產(chǎn)品設(shè)計(jì)中的應(yīng)用
作為產(chǎn)品經(jīng)理我們要明確自己不是在從事一種機(jī)械式的勞動(dòng),我們要不斷去思考新技術(shù)與產(chǎn)品結(jié)合的可能性,來不斷提升用戶效率降低用戶成本。通過學(xué)習(xí)與接觸新知識(shí),我們將會(huì)不斷提升自己的認(rèn)知底線,這是在增加你的替代成本,也是你能升職加薪贏娶白富美的真正原因。
這個(gè)專題將會(huì)通過真實(shí)的案例,來向好學(xué)的你用白話的方式講解一個(gè)個(gè)大數(shù)據(jù)與機(jī)器學(xué)習(xí)在產(chǎn)品設(shè)計(jì)中的應(yīng)用。
引言
最近調(diào)研了一位班主任,他反饋了一個(gè)現(xiàn)象:過往的幾屆學(xué)生中總會(huì)出現(xiàn)這樣一種情況,原本明明是物理尖子生,但是隨著學(xué)業(yè)的進(jìn)展,部分學(xué)生的物理成績(jī)開始下滑。
通過分析學(xué)生的試卷情況,老師發(fā)現(xiàn)學(xué)生的失分點(diǎn)可能是和一些數(shù)學(xué)知識(shí)相關(guān)。這是不是意味著學(xué)生物理學(xué)的不好的原因可能是在數(shù)學(xué)方面出了問題?如果真的是這樣,我該怎么幫助學(xué)生?
針對(duì)這種情況,我們是否有一種方法能夠找到物理知識(shí)點(diǎn)與數(shù)學(xué)知識(shí)點(diǎn)的關(guān)系呢?正好,公司產(chǎn)品里已經(jīng)沉淀了大量關(guān)于學(xué)生的答題數(shù)據(jù),基于關(guān)聯(lián)規(guī)則分析我們可以找到學(xué)生的錯(cuò)題知識(shí)點(diǎn)的規(guī)則,最終獲得知識(shí)點(diǎn)間的相關(guān)規(guī)律,并將該規(guī)律應(yīng)用于產(chǎn)品中進(jìn)行知識(shí)圖譜的搭建。
關(guān)聯(lián)分析規(guī)則
關(guān)聯(lián)規(guī)則分析也稱為購物籃分析,一個(gè)經(jīng)典的案例就是啤酒與尿布,最早是為了發(fā)現(xiàn)超市銷售數(shù)據(jù)庫中不同的商品之間的關(guān)聯(lián)關(guān)系。
美國(guó)沃爾瑪超市管理人員分析銷售數(shù)據(jù)時(shí),發(fā)現(xiàn)了一個(gè)令人難以理解的現(xiàn)象:
在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關(guān)系的商品,會(huì)經(jīng)常出現(xiàn)在同一個(gè)購物籃中,且大多出現(xiàn)在年輕的父親身上。經(jīng)調(diào)查發(fā)現(xiàn),在美國(guó)有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親去超市買尿布。父親在購買尿布的同時(shí),往往會(huì)順便為自己購買啤酒。
言歸正傳,我們將數(shù)據(jù)庫的學(xué)生答題數(shù)據(jù)進(jìn)行處理,將每位學(xué)生的數(shù)據(jù)整理成如下格式(整理方式不是本文重點(diǎn)內(nèi)容,這里就不做闡述了):
現(xiàn)在假設(shè),我們有10000條數(shù)據(jù)用來統(tǒng)計(jì)各個(gè)學(xué)生在知識(shí)點(diǎn)1與知識(shí)點(diǎn)2的掌握情況,其中有6000位學(xué)生未掌握知識(shí)點(diǎn)1,8000位學(xué)生未掌握知識(shí)點(diǎn)2,而有4000位學(xué)生同時(shí)未掌握知識(shí)點(diǎn)1和知識(shí)點(diǎn)2。
通過這個(gè)數(shù)據(jù)我們可以產(chǎn)生一條兩個(gè)知識(shí)點(diǎn)之間的關(guān)聯(lián)規(guī)則,用來表示未掌握知識(shí)點(diǎn)1的學(xué)生也未掌握知識(shí)點(diǎn)2。
這里我們需要引入三個(gè)關(guān)鍵指標(biāo)來評(píng)估這條規(guī)則的有效性,分別為支持度、置信度和提升度,這里我盡量簡(jiǎn)單的講解下:
支持度、置信度和提升度
支持度揭示了同時(shí)未掌握知識(shí)點(diǎn)1與知識(shí)點(diǎn)2的學(xué)生在整個(gè)數(shù)據(jù)集的占比,針對(duì)上方案例支持度 Support = 4000/10000 = 40%。
支持度越小,說明同時(shí)未掌握知識(shí)點(diǎn)1和知識(shí)點(diǎn)2的學(xué)生少之又少,兩個(gè)知識(shí)點(diǎn)之間的聯(lián)系并不大;若支持度很大,則說明未掌握知識(shí)點(diǎn)1與知識(shí)點(diǎn)2的學(xué)生占比非常大,那兩個(gè)知識(shí)點(diǎn)的相關(guān)性可能已經(jīng)成為常識(shí)了,并不值得深究。
那僅了解支持度就足夠了么?肯定不是,通過支持度我們僅能了解到學(xué)生同時(shí)未掌握知識(shí)點(diǎn)1與知識(shí)點(diǎn)2的頻率,但我們并不能得到未掌握知識(shí)點(diǎn)1對(duì)未掌握知識(shí)點(diǎn)2起了多少?zèng)Q定因素。因此,我們要引入第二個(gè)指標(biāo),就是置信度。
置信度揭示了在未掌握知識(shí)點(diǎn)1的學(xué)生人群中,同時(shí)有多少學(xué)生也未掌握知識(shí)點(diǎn)2。針對(duì)上方案例,置信度 confidence = 4000/6000 = 67%。也就是意味著,在未掌握知識(shí)點(diǎn)1的學(xué)生中有67%的學(xué)生也未掌握知識(shí)點(diǎn)2。
是不是看了以上兩個(gè)指標(biāo)后,你會(huì)覺得知識(shí)點(diǎn)1與知識(shí)點(diǎn)2肯定存在著某種頻繁關(guān)系?
畢竟67%已經(jīng)不算是一個(gè)小數(shù)字了。但是我們?cè)倩乜聪掳咐?,如果我們不考慮知識(shí)點(diǎn)1的掌握情況,只看知識(shí)點(diǎn)2的未掌握學(xué)生占比,這個(gè)值會(huì)高達(dá) 80% !這就表明未掌握知識(shí)點(diǎn)1對(duì)未掌握知識(shí)點(diǎn)2并不是一個(gè)正向的關(guān)系,未掌握知識(shí)點(diǎn)1的可能性提升反而會(huì)導(dǎo)致未掌握知識(shí)點(diǎn)2的可能性下降。
是不是很反常理?我額外掌握了一個(gè)知識(shí)點(diǎn)居然會(huì)讓我遺忘另一個(gè)知識(shí)點(diǎn)。其實(shí),從現(xiàn)象上講這也是可能的。因?yàn)椋说拇竽X容量有限,并且部分知識(shí)點(diǎn)會(huì)存在干擾項(xiàng),你學(xué)得多就會(huì)導(dǎo)致做題的時(shí)候會(huì)多種思考的維度,這可能會(huì)讓學(xué)生誤入歧途。(時(shí)隔多年,我終于找到我考試考不好的原因了!)。為了解決這個(gè)問題,我們引入了提升度。
- 當(dāng)提升度為1時(shí)說明,應(yīng)用關(guān)聯(lián)規(guī)則和不應(yīng)用關(guān)聯(lián)規(guī)則產(chǎn)生相同的結(jié)果;
- 當(dāng)提升度大于1時(shí),說明應(yīng)用關(guān)聯(lián)規(guī)則和不應(yīng)用關(guān)聯(lián)規(guī)則能產(chǎn)生更好的結(jié)果;
- 當(dāng)提升度小于1時(shí),關(guān)聯(lián)規(guī)則具有負(fù)相關(guān)的作用。
本例中的提升度 Lift = 67 % / 80% = 0.84,所以知識(shí)點(diǎn)1與知識(shí)點(diǎn)2是負(fù)相關(guān)的。
實(shí)際應(yīng)用
解釋完以上內(nèi)容后,相信大家已經(jīng)對(duì)關(guān)聯(lián)分析規(guī)則有了一個(gè)大致的概念。接下來我們進(jìn)行實(shí)操,針對(duì)所有知識(shí)點(diǎn)進(jìn)行兩兩組合,分別統(tǒng)計(jì)在未掌握知識(shí)點(diǎn)1的情況下未掌握知識(shí)點(diǎn)2的學(xué)生出現(xiàn)的數(shù)量、支持度、置信度和提升度。
因?yàn)殚喿x本文的你很有可能并不會(huì)代碼(產(chǎn)品經(jīng)理也不需要會(huì)代碼,了解整體思路即可),我們就直接給出代碼運(yùn)行結(jié)果(有興趣的小伙伴可以去自學(xué)下,工具為Python,庫為sys,Pandas,apriori), 我們根據(jù)出現(xiàn)的實(shí)例數(shù)進(jìn)行降序,并找到提升度>1的知識(shí)對(duì),得到如下表格。
通過表格我們可以發(fā)現(xiàn)(牽扯到公司數(shù)據(jù)安全,這里我們就使用ID來進(jìn)行說明),ID為0131535的知識(shí)點(diǎn)與ID為0134176的知識(shí)點(diǎn)同時(shí)未掌握的頻次最高。并且,兩個(gè)知識(shí)點(diǎn)未掌握知識(shí)點(diǎn)0131535的學(xué)生,同時(shí)未掌握的知識(shí)點(diǎn)0134176的概率是47.23%,未掌握知識(shí)點(diǎn)0131535將會(huì)增加未掌握知識(shí)點(diǎn)0134176的可能性,提升度為1.341。
我們可以建議老師在學(xué)生若未掌握知識(shí)點(diǎn)0134176 的時(shí)候,可以適當(dāng)講解知識(shí)點(diǎn)0131535。
并且通過如上分析結(jié)果,我們可以提煉學(xué)生知識(shí)點(diǎn)間掌握程度的關(guān)聯(lián)(也可擴(kuò)展到多個(gè)知識(shí)點(diǎn)),一個(gè)8年級(jí)的知識(shí)點(diǎn)學(xué)不會(huì)可能是因?yàn)?、7年級(jí)的某些知識(shí)點(diǎn)沒有掌握而導(dǎo)致的,以此來搭建學(xué)生知識(shí)圖譜,幫助學(xué)生追根溯源,找到知識(shí)漏洞。
結(jié)語
本文案例是教育行業(yè)知識(shí)圖譜的應(yīng)用,那關(guān)聯(lián)規(guī)則還能用于哪些場(chǎng)景呢?
這里可以舉幾個(gè)常見場(chǎng)景:
- 購物組合(購物車商品推薦)
- 關(guān)鍵字搜索關(guān)聯(lián)分析
- 網(wǎng)頁頁面瀏覽關(guān)聯(lián)分析
- 購買行為預(yù)測(cè)
- 流量來源預(yù)測(cè)
- ……
以上是本次分享的內(nèi)容,有沒有發(fā)現(xiàn),機(jī)器學(xué)習(xí)與大數(shù)據(jù)并不可怕?
作者:Pirate,用白話說大數(shù)據(jù)給你聽。
本文由 @Pirate 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
仰望大神,好厲害