策略產(chǎn)品 ①算法邏輯

0 評(píng)論 1936 瀏覽 19 收藏 7 分鐘

機(jī)器學(xué)習(xí)是AI的關(guān)鍵技術(shù)之一,是指機(jī)器從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而提升系統(tǒng)某個(gè)性能度量的過程。這篇文章,我們?cè)谧髡叩膸ьI(lǐng)下梳理下全流程。

機(jī)器學(xué)習(xí),機(jī)器從歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而提升系統(tǒng)某個(gè)性能度量的過程。在工業(yè)界中的應(yīng)用主要為:研究如何讓計(jì)算機(jī)從歷史數(shù)據(jù)中更好地學(xué)習(xí),從而產(chǎn)生一個(gè)優(yōu)秀模型以提升系統(tǒng)某項(xiàng)性能的學(xué)科。

1952年,“Machine Learning”的概念被提出。

一、機(jī)器學(xué)習(xí)與AI的關(guān)系

AI是一個(gè)領(lǐng)域,1956年8月被正式提出,主要包括三大要素:算法、算力、算據(jù)。機(jī)器學(xué)習(xí)便是其中的算法,算力指的是計(jì)算資源,最主要的是芯片。故而AI包含機(jī)器學(xué)習(xí),而機(jī)器學(xué)習(xí)這一實(shí)現(xiàn)AI的方法論包括傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度強(qiáng)化學(xué)習(xí)等子技術(shù)。

AI分為三個(gè)階段:弱人工智能、強(qiáng)人工智能、超人工智能。

  1. 弱人工智能:專注某方面能力,智商高,情商為0
  2. 強(qiáng)人工智能:可以批評(píng)性思考,智商情商均高
  3. 超人工智能:智商與情商全面超越人類,思維多元化。

二、機(jī)器學(xué)習(xí)全流程

1.?問題定義

利用機(jī)器學(xué)習(xí)構(gòu)建模型需要考慮以下問題定義,問題定義清楚后再考慮以下3個(gè)問題。

1)機(jī)器學(xué)習(xí)的任務(wù)類型是什么?

機(jī)器學(xué)習(xí)的任務(wù)類型可以分成兩大類:一類是預(yù)測類任務(wù),如銷量預(yù)測、推薦系統(tǒng)、人臉識(shí)別等,一類為生成類任務(wù),基于歷史數(shù)據(jù)學(xué)習(xí)后,可以從零生成任務(wù),具體細(xì)化分類如下

2)使用什么算法來構(gòu)建模型

任務(wù)類型確定后,可以結(jié)合具體場景確定使用什么算法。

以CTR預(yù)估模型為例,工業(yè)界搞起普遍使用LR(logistics regression,邏輯回歸)算法,現(xiàn)在多使用DNN(deep neutral network,深度神經(jīng)網(wǎng)絡(luò))算法。

3)如何評(píng)估模型的好壞

不同任務(wù)類型需要使用不同指標(biāo)來評(píng)估模型效果。對(duì)于CTR預(yù)估模型,離線訓(xùn)練時(shí)應(yīng)該使用AUC(area under curve,曲線下面積)指標(biāo)進(jìn)行評(píng)估。。

2.?數(shù)據(jù)處理

數(shù)據(jù)處理分為4步:數(shù)據(jù)收集、數(shù)據(jù)清晰、數(shù)據(jù)標(biāo)注、數(shù)據(jù)切分。

以用戶CTR為例進(jìn)行說明:

  • 數(shù)據(jù)收集:確定需使用的數(shù)據(jù),分為正樣本(用戶點(diǎn)擊)和負(fù)樣本(用戶不點(diǎn)擊)、基本信息特征(最好近期,樣本量大時(shí)可以隨機(jī)抽樣)
  • 數(shù)據(jù)清洗:剔除臟數(shù)據(jù)、測試數(shù)據(jù)、無效數(shù)據(jù)、統(tǒng)一字段含義。
  • 數(shù)據(jù)標(biāo)注:人工達(dá)標(biāo)分類,明確樣本標(biāo)簽
  • 數(shù)據(jù)切分:訓(xùn)練集+測試集測試擬合效果,調(diào)試防過擬合/不擬合。(注:小心“數(shù)據(jù)穿越”問題的出現(xiàn))

3.?特征工程

模型效果一部分由數(shù)據(jù)質(zhì)量決定,一部分由特征工程決定。挑選使用場景下最適合、最有效的特征并加入模型,這就是特征工程的工作。此時(shí)業(yè)務(wù)專家的經(jīng)驗(yàn)輸入可以幫助鎖定有效特征。

4.?模型訓(xùn)練

常見的模型訓(xùn)練方法有四種:監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí),主要區(qū)分點(diǎn)在于是否數(shù)據(jù)打標(biāo)、算法模式。

  1. 監(jiān)督學(xué)習(xí):打好已知訓(xùn)練數(shù)據(jù)的標(biāo)簽,目的明確的學(xué)習(xí)特征。
  2. 無監(jiān)督學(xué)習(xí):直接訓(xùn)練數(shù)據(jù)模型,原因:數(shù)據(jù)雜亂、標(biāo)注成本高、區(qū)分標(biāo)準(zhǔn)難確定,方式比如聚類
  3. 半監(jiān)督學(xué)習(xí):有的達(dá)標(biāo),有的不打
  4. 強(qiáng)化學(xué)習(xí):不需要達(dá)標(biāo),與環(huán)境互動(dòng),獎(jiǎng)勵(lì)/懲罰+反饋調(diào)整。

經(jīng)過數(shù)據(jù)+算法輸入,構(gòu)建完特征工程后即有初版模型,表現(xiàn)形式為函數(shù),如y=ax+by+cz+d,模型訓(xùn)練結(jié)果可能出現(xiàn)欠擬合、過擬合、正常三種情況。

5.?模型評(píng)估

模型評(píng)估主要指離線效果評(píng)估,不是在線上做小流量的ABTest試驗(yàn),需要在測試集上進(jìn)行驗(yàn)證,對(duì)于不同任務(wù)有不同的關(guān)注點(diǎn)。

  • 分類任務(wù):召回率、精準(zhǔn)率、AUC指標(biāo)
  • 聚類任務(wù):聚類純度、蘭德系數(shù)
  • 回歸任務(wù):MSE、RMSE、R-Squared。

6.?模型應(yīng)用

在線上真實(shí)環(huán)境進(jìn)行效果測試。用戶行為變化、數(shù)據(jù)迭代速度是影響因素,所以需要線上不斷調(diào)優(yōu)。

本文由 @產(chǎn)品研習(xí)中 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!