翻譯翻譯,什么叫機(jī)器學(xué)習(xí)?

3 評(píng)論 4714 瀏覽 11 收藏 9 分鐘

編輯導(dǎo)讀:認(rèn)識(shí)世界,就是一個(gè)從已知到未知的函數(shù)。機(jī)器學(xué)習(xí),就是預(yù)測這個(gè)函數(shù),并且使預(yù)測結(jié)果盡量準(zhǔn)確。本文作者圍繞機(jī)器學(xué)習(xí)展開討論,與你分享。

問:談?wù)勀銓C(jī)器學(xué)習(xí)的理解。

答:機(jī)器學(xué)習(xí)就是用已知去預(yù)測未知。

認(rèn)識(shí)世界,就是一個(gè)從已知到未知的函數(shù)。收集一大堆數(shù)據(jù),然后用它們?nèi)ヮA(yù)測一個(gè)值,就是回歸問題。例如數(shù)碼回收,根據(jù)你的機(jī)型、機(jī)況和行情,給出一個(gè)價(jià)格走勢;從一大堆數(shù)據(jù)中,找到屬于某一類的那些,就是分類問題。例如我們經(jīng)常使用的驗(yàn)證碼,“選出所有帶橋的圖片”。

機(jī)器學(xué)習(xí),就是預(yù)測這個(gè)函數(shù),并且使預(yù)測結(jié)果盡量準(zhǔn)確。當(dāng)然,這個(gè)過程是由算法工程師實(shí)現(xiàn)的,策略產(chǎn)品經(jīng)理需要思考的是怎樣用算法的邏輯,去解決業(yè)務(wù)問題。本文放棄了復(fù)雜的定義和公式,嘗試用口語化的語言介紹常用算法的邏輯,降低新手產(chǎn)品經(jīng)理(非技術(shù))的學(xué)習(xí)成本,并且覆蓋盡可能多的工作場景。

一、像樹一樣決策

決策樹(Decision Tree)是一種以樹形數(shù)據(jù)結(jié)構(gòu)來展示決策規(guī)則和分類結(jié)果的模型,比較接近人類的決策過程。決策樹發(fā)揮作用,首先要用到看似雜亂無序的已知實(shí)例,有2個(gè)值可以來形容這些實(shí)例。

  1. 信息熵:對隨機(jī)時(shí)間不確定的度量,即到底有多雜亂無章。
  2. 信息增益:事件A的的發(fā)生為事件B增加了一些確定性,增量的多少即信息增益。

接下來,你要不斷尋找最能將這堆雜亂無章的數(shù)據(jù)區(qū)分開來的特征——即使之區(qū)分于其他數(shù)據(jù)的特質(zhì)——使用這一特征對數(shù)據(jù)進(jìn)行劃分。每次選擇區(qū)分度最高的一個(gè),不斷迭代,直到所有特征都被用掉。用最經(jīng)典的買瓜問題來示例:

這時(shí)你就可以通過決策樹來判斷,下一個(gè)西瓜到底該不該買。在這個(gè)過程中,有時(shí)候需要產(chǎn)品幫助判斷什么特征才是最有價(jià)值的。你也可以不斷發(fā)現(xiàn)新的有價(jià)值特質(zhì),或刪除一些多余的特征,將這棵”樹“修剪地更加精致。

二、以類聚物,以群分人

所謂”近朱者赤近墨者黑“,雖然我們不了解一個(gè)人,但我們了解了他身邊的人后,就根據(jù)已知信息推測他的性格特征。這也是K近鄰模型的原理。在一個(gè)空間中,距離樣本A最近的K個(gè)樣本B屬于一個(gè)類別,那么A也屬于這個(gè)類別,并且具備這個(gè)類別的特征。這里”空間“和”距離“的定義較為復(fù)雜,不做展開。

如何選擇合適的K值?需要持續(xù)訓(xùn)練。如果K們不能很好地歸成一類咋辦?那我A應(yīng)該歸屬于誰呢?有兩種判定方式,一種是少數(shù)服從多數(shù),哪類最多我屬于誰;一種是加權(quán)投票,可以根據(jù)遠(yuǎn)近程度加權(quán),越近權(quán)重越大。

對于產(chǎn)品而言,在進(jìn)行用戶分層類的項(xiàng)目時(shí),可能會(huì)依賴這類算法能力。舉個(gè)例子,當(dāng)前我能提供圖文、短視頻和中長視頻三種形式的服務(wù),每種服務(wù)下都積累了大量的用戶數(shù)據(jù)。這時(shí)由于運(yùn)營的出色表現(xiàn),產(chǎn)品涌入了大量新用戶,我需要盡快知道他們更適合哪種形式的服務(wù),以提高留存、活躍和轉(zhuǎn)化。

三、完美一刀切

承接上文,面對大量新用戶,我想要知道他們哪些對我價(jià)值最高,哪些價(jià)值稍低,從而采取不同的運(yùn)營策略。支持向量機(jī)模型會(huì)是一個(gè)好的選擇。

假如我有N個(gè)特征來形容這批用戶,那么構(gòu)建一個(gè)N維的空間,每個(gè)用戶都能在其中找到自己的坐標(biāo)。這時(shí)我找到一個(gè)N-1維的平面,它正好將所有用戶分割成2個(gè)不同的類別,并且離正負(fù)樣本的距離最遠(yuǎn)。

這就是支持向量機(jī)模型的基本邏輯,是解決線性不可分問題、非線性問題的利器。

以上三種模型都是根據(jù)已知特征,給出一個(gè)確定的分類結(jié)果(未必準(zhǔn)確),我們稱之為判別模型。與之相對的是生成模型,它會(huì)給出一個(gè)最優(yōu)的猜測結(jié)果,同時(shí)給出猜測的概率估計(jì)值。在一定條件下,它能更好地反映數(shù)據(jù)分布的全貌。

四、樸素貝葉斯模型

啥叫貝葉斯?貝葉斯就是在已知某條件的前提下,推算某事件發(fā)生的概率。它強(qiáng)調(diào)我們在預(yù)測一個(gè)事物前,要根據(jù)已有信息推斷一個(gè)先驗(yàn)概率。用舉個(gè)例子:如何腫瘤化驗(yàn)結(jié)果推斷患者是否真正得癌?在計(jì)算這個(gè)概率之前,我們首先要知道先驗(yàn)概率,即癌癥本身的發(fā)病率為多少,以及化驗(yàn)檢測的準(zhǔn)確率是多少。

如上圖所示,當(dāng)你的化驗(yàn)結(jié)果是有病時(shí),你實(shí)際上只有9%的概率真正患病;而如果你真正患病,也有十萬分之一的概率沒有被檢測出來。

這其實(shí)告訴我們,在根據(jù)數(shù)據(jù)進(jìn)行決策時(shí),要考慮前提條件。例如我們在產(chǎn)品內(nèi)部新上線了一個(gè)“長視頻”板塊,數(shù)據(jù)分析發(fā)現(xiàn)這一板塊下的用戶以35-45歲的用戶為主,所以我們判斷要根據(jù)這一年齡階段的用戶去優(yōu)化UI設(shè)計(jì)和內(nèi)容投放。

但考慮到先驗(yàn)概率的問題,我們首先要知道該板塊用戶的轉(zhuǎn)化概率,即從35歲-45歲的網(wǎng)民轉(zhuǎn)化到我“長視頻”板塊活躍用戶的概率。如果這一概率很高,那么我們可能只是在這一年齡段用戶聚集的渠道做了比較多的投放,導(dǎo)致現(xiàn)階段35-45歲用戶較多。我們針對其他年齡用戶聚集的渠道,也來一波拉新策略,可能同樣獲得成功。那么現(xiàn)階段去調(diào)整功能設(shè)計(jì)和內(nèi)容策略,就是不合適的。

五、總結(jié)

對很多非技術(shù)產(chǎn)品經(jīng)理來說,充斥著數(shù)學(xué)公式和專業(yè)術(shù)語的技術(shù)語言是很難理解,或理解成本較高的。但實(shí)際上,作為一個(gè)新手產(chǎn)品經(jīng)理,還沒有深入到具體的業(yè)務(wù)之前,只需要了解每種技術(shù)的實(shí)現(xiàn)邏輯即可。從策略的視角去審視技術(shù),而不是讓技術(shù)限制了你的想象力。樹立強(qiáng)烈的目標(biāo)導(dǎo)向,與技術(shù)團(tuán)隊(duì)建立良好的溝通關(guān)系,可能是更高效的手段。

相關(guān)閱讀:

?新手產(chǎn)品經(jīng)理高效溝通體系的搭建

 

本文由 @學(xué)產(chǎn)品的小學(xué)生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請登錄
  1. 如上圖所示,當(dāng)你的化驗(yàn)結(jié)果是有病時(shí),你實(shí)際上只有9%的概率真正患??; 這話有點(diǎn)怪

    來自廣東 回復(fù)
  2. 機(jī)器學(xué)習(xí)的概念第一次進(jìn)入公眾視野應(yīng)該是多年以前蘋果發(fā)布iphone x的時(shí)候引入的概念,忘了是ihone x還是7了

    來自北京 回復(fù)
  3. 大家可以看下我的思路有無錯(cuò)誤~

    來自北京 回復(fù)