AI產(chǎn)品之路:機(jī)器學(xué)習(xí)(二)
關(guān)于機(jī)器學(xué)習(xí),你了解多少呢?
上篇文章里,主要分享了關(guān)于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的基本概念和他們之間的區(qū)別,最后介紹了有監(jiān)督學(xué)習(xí)方式中的回歸。其實(shí)我在最后留下一點(diǎn)小問(wèn)題,那就是如果數(shù)據(jù)不是線性關(guān)系的話,怎么回歸?這篇文章就會(huì)回答這個(gè)問(wèn)題,主要分享監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)中的三大類:
- 監(jiān)督學(xué)習(xí)方式下,回歸中的“非線性回歸”
- 監(jiān)督學(xué)習(xí)方式下的“分類”
- 非監(jiān)督學(xué)習(xí)方式的“聚類”
- 關(guān)于機(jī)器學(xué)習(xí)的復(fù)盤
1.非線性回歸
直逼主題,上篇我們假定的數(shù)據(jù)都是線性的,那么最后當(dāng)然可以回歸出y=wx+b這樣的線性方程,可我們最終是想通過(guò)機(jī)器學(xué)習(xí)解決現(xiàn)實(shí)問(wèn)題,而現(xiàn)實(shí)中的很多數(shù)據(jù)不可能單單是線性關(guān)系,如果強(qiáng)行使用,那么算法模型只能是欠擬合,誤差非常大。
這里我們就著重說(shuō)一下,回歸中的非線性回歸,而其中應(yīng)用最多的就是“邏輯回歸”。
先上公式:
看到這個(gè)公式先別慌,其中你們注意(wx+b)是我們上篇已經(jīng)熟悉的線性回歸方程,把它想象成一個(gè)整體,帶入到這個(gè)新公式中,代表著什么呢?下面我們看這個(gè)公式的函數(shù)圖
可以看到,在x可以取(-無(wú)窮小,+無(wú)窮大)的區(qū)間里,整個(gè)y值是的區(qū)間只能是【0,1】之間。具體的數(shù)學(xué)函數(shù)轉(zhuǎn)換如果搞不明白完全沒(méi)關(guān)系,只需要回憶一下上一篇中“線性回歸”的思想,通過(guò)找到損失函數(shù)Loss最小的對(duì)應(yīng)wx+b中對(duì)應(yīng)的w與b的值。而這個(gè)邏輯回歸函數(shù)的作用,在僅僅是把x多映射一次,即讓輸出的y值恒定落在【0,1】這個(gè)區(qū)間而已,其回歸思想的本質(zhì)并沒(méi)有改變。
那么為什么要加入這個(gè)函數(shù)呢?其實(shí)是方便做概率判斷:
因?yàn)檫@個(gè)函數(shù)會(huì)讓x無(wú)論輸入的是什么,最終輸出的y肯定是0-1之間的值,那么越接近1,我們可以認(rèn)為越接近“1”代表的特征,越接近0,我們認(rèn)為越接近“0”代表的特征。而“0”與“1”具體要賦予什么意義,就看我們到底想通過(guò)機(jī)器學(xué)習(xí)去識(shí)別什么了。
2.監(jiān)督學(xué)習(xí)–“分類”
先感性談?wù)劇胺诸悺边@個(gè)概念。就是我們希望有一臺(tái)機(jī)器,可以幫助我們進(jìn)行圖像的分類識(shí)別。比如我這里有一堆混雜著“魚”、“狗”和“貓”的圖片,光靠人力完成是非常困難的,我想通把這些大量的數(shù)據(jù)輸入給計(jì)算機(jī),它很快就能完成而不需要耗費(fèi)我很長(zhǎng)時(shí)間去一個(gè)一個(gè)挑選。但我們知道計(jì)算機(jī)天生不具備這樣的功能,就可以通過(guò)機(jī)器學(xué)習(xí)中的“分類”去完成。有了前面“回歸”機(jī)器學(xué)習(xí)的思想基礎(chǔ),這個(gè)應(yīng)該很好理解了。
即我會(huì)找到大量的“魚”“貓”和“狗”的圖片,每種都對(duì)應(yīng)好標(biāo)簽比如“1”“2”“3”。這時(shí)候我們拿這些數(shù)據(jù)去訓(xùn)練分類器。分類器的訓(xùn)練過(guò)程和線性回歸基本很相似:
- 建立映射關(guān)系的假說(shuō)即 ?y=wx+b
- 找到全局損失函數(shù)Loss與我們想要求解的w與b的映射關(guān)系方程
- 找到Loss符合誤差范圍的w與b (訓(xùn)練過(guò)程結(jié)束)
- 拿著訓(xùn)練好的模型去用驗(yàn)證集驗(yàn)證
3.非監(jiān)督學(xué)習(xí)–“聚類”
前面我們介紹的線性回歸、非線性回歸和分類,都屬于“監(jiān)督學(xué)習(xí)方式”,要在訓(xùn)練數(shù)據(jù)之前進(jìn)行標(biāo)記,這樣的數(shù)據(jù)模型才可以被訓(xùn)練。但數(shù)據(jù)量很大的時(shí)候,人工標(biāo)注起來(lái)是非常困難的。
先回憶一下非監(jiān)督學(xué)習(xí)的定義:?獲得訓(xùn)練的向量數(shù)據(jù)后沒(méi)有標(biāo)簽的情況下,嘗試找出其內(nèi)部蘊(yùn)含的一種關(guān)系的挖掘工作。而聚類,在感性的認(rèn)知就是把特征形態(tài)相同或相近的聚合到一個(gè)概念類別下,把特征形態(tài)不同的分開(kāi)。
聚類核心思想:通過(guò)對(duì)數(shù)據(jù)進(jìn)行特征抽象和提取,轉(zhuǎn)換為空間中的向量,通過(guò)計(jì)算每個(gè)“向量”的距離,從遠(yuǎn)近的角度去判定是否從屬一個(gè)類別。其本質(zhì)就是把現(xiàn)實(shí)世界中的特征,轉(zhuǎn)化為數(shù)學(xué)的空間向量,這樣我們就把現(xiàn)實(shí)的特征問(wèn)題,轉(zhuǎn)化成了一個(gè)可能通過(guò)數(shù)學(xué)方式解決的“向量計(jì)算問(wèn)題”。當(dāng)然在具體計(jì)算的時(shí)候還涉及到“特征提取及轉(zhuǎn)換”的步驟(這也是深度學(xué)習(xí)的重要內(nèi)容)
舉個(gè)例子我這里有幾個(gè)概念,“卡車”、“汽車”、“飛機(jī)”和“人”,他們每個(gè)都可以用空間中的向量去表示,那么“卡車”與“汽車”的距離就應(yīng)該是最近的,其次是“飛機(jī)”,因?yàn)樗麄兌紝儆凇敖煌üぞ摺边@個(gè)大類,“汽車”與“人”代表的向量應(yīng)該是空間中距離最遠(yuǎn)的,這樣就是實(shí)現(xiàn)了現(xiàn)實(shí)世界概念特征的聚類。
4.機(jī)器學(xué)習(xí)的復(fù)盤
到這里已經(jīng)把機(jī)器學(xué)習(xí)中最重要的概念和原理大體講了一遍。其實(shí)發(fā)現(xiàn)并沒(méi)有特別難的樣子,主要在于理解機(jī)器學(xué)習(xí)的思想與基本原理。
其實(shí)機(jī)器學(xué)習(xí)(深度學(xué)習(xí))都是手段,我們的目的是讓計(jì)算機(jī)可以對(duì)現(xiàn)實(shí)物理世界比如圖像、聲音、視頻等進(jìn)行分類、識(shí)別甚至一定程度的理解和反饋??捎?jì)算機(jī)并不能像人類一樣可以進(jìn)行抽象思考,而機(jī)器學(xué)習(xí)的本質(zhì),就是把這些物理世界的特征進(jìn)行數(shù)學(xué)化,轉(zhuǎn)換成計(jì)算機(jī)可以聽(tīng)懂的語(yǔ)言,這樣它就可以對(duì)這些“數(shù)學(xué)化的物理特征”進(jìn)行計(jì)算了,只不過(guò)在我們看來(lái),它好像是通過(guò)像人一樣學(xué)習(xí)和思考似的。
對(duì)于如何判定機(jī)器學(xué)習(xí)的結(jié)果,其本質(zhì)也是轉(zhuǎn)換成數(shù)學(xué)中的誤差問(wèn)題進(jìn)行求解,找到符合我們要求的誤差,即認(rèn)為機(jī)器學(xué)習(xí)完成。
最后我們記住一個(gè)公式: y=wx+b,看似簡(jiǎn)單的公式,后面在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)中會(huì)經(jīng)常用到,而且無(wú)論是學(xué)習(xí)方式的轉(zhuǎn)換,還是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的變換,其最終目的,簡(jiǎn)單理解的話都可以認(rèn)為是建立損失函數(shù)Loss與w和b的一個(gè)映射關(guān)系,找到Loss符合我們要求的對(duì)應(yīng)的w和b。(當(dāng)然怎么找,這就非常復(fù)雜了,我也在學(xué)習(xí)中)
機(jī)器學(xué)習(xí)的部分就分享到這里,下一篇會(huì)更新有關(guān)“神經(jīng)元和神經(jīng)網(wǎng)絡(luò)”的知識(shí),這是了解深度學(xué)習(xí)的基石。
相關(guān)閱讀
AI產(chǎn)品之路(一):機(jī)器學(xué)習(xí)
本文由 @?Free 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自PEXELS,基于CC0協(xié)議
監(jiān)督學(xué)習(xí)–“分類”這個(gè)模塊標(biāo)注,并非是給不同圖標(biāo)注1、2、3。而是標(biāo)注上圖片里的生物特征,幾個(gè)爪子什么顏色眼睛之類的。
非監(jiān)督學(xué)習(xí)–“聚類”這個(gè)模塊由于數(shù)據(jù)量大需要用非監(jiān)督學(xué)習(xí),是對(duì)一個(gè)品類(如貓這個(gè)品類)需要標(biāo)注的字端及其復(fù)雜,人工識(shí)別標(biāo)注幾張圖就要非常非常久。
樓主看下,我理解的對(duì)么 ??
兩篇文章仔細(xì)看下來(lái),說(shuō)不清楚具體學(xué)到了什么。但總算對(duì)機(jī)器學(xué)習(xí)有個(gè)大致了解,希望以后能成為AI產(chǎn)品經(jīng)理一員。多謝分享~