天干夜啦天干天干国产精品，免费无码国产一级AV片，亚洲专区无码av，人妻系列专区一区，久久久久久亚洲视频免费，狼狼狼色在线精品视频免费，亚洲视频在线精品无码，AV在线播放每日更新

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

一文讀懂：機器學習模型構(gòu)建全流程

AI小當家

2023-12-20

3 評論 3246 瀏覽 23 收藏

10 分鐘

本文是系列文章的第二篇，會具體產(chǎn)出模型構(gòu)建環(huán)節(jié)的具體內(nèi)容。閱讀本文前，建議先閱讀上篇文章，可以知道模型構(gòu)建環(huán)節(jié)處于AI產(chǎn)品構(gòu)建的哪個位置。

上文以薅羊毛項目為例，簡單介紹了AI產(chǎn)品構(gòu)建的全流程，其中模型構(gòu)建、模型評估等重點環(huán)節(jié)只是一筆帶過。今天我們來了解一下模型構(gòu)建環(huán)節(jié)的具體內(nèi)容。

模型構(gòu)建，其實就是從繁雜的數(shù)據(jù)中提取那些最能解釋數(shù)據(jù)本質(zhì)的特征，再利用算法建立出對未知數(shù)據(jù)有準確預測能力模型的過程。

模型構(gòu)建主要包括5個階段，分別為算法選擇、特征工程、模型訓練、模型驗證和模型融合。

以上文薅羊毛項目為例，基于其需求定義，模型需要計算出用戶是薅羊毛用戶的概率，并根據(jù)概率高低分為正常、疑似、高危三類，最終技術同學決定采用邏輯回歸算法來實現(xiàn)該需求。

邏輯回歸算法具有計算速度快、可解釋性強的優(yōu)點，適用于解決需求中的多分類問題，而且還可以對用戶“為什么封號”的質(zhì)疑，有較強的解釋性。

目前大家對算法有個概念就可以，后續(xù)篇章中會對常見的算法進行較詳細的介紹。

確定算法之后，我們就可以進入特征工程階段了。

特征工程是模型構(gòu)建過程中最重要的部分，如果我們可以挑選到足夠優(yōu)質(zhì)的特征，不僅可以提升模型性能，還能降低模型的復雜度，大幅簡化構(gòu)建過程。

數(shù)據(jù)和特征決定了模型的上限，而模型和算法只是逼近這個上限而已。

所有模型的輸入都是數(shù)量化的信息，所以我們需要通過某種方式，把各種類型的數(shù)據(jù)轉(zhuǎn)化成數(shù)量化的信息，這個過程就是特征工程。

以薅羊毛項目為例，我們可以通過用戶是否在夜間活動、操作頻率、歷史訂單、完成活動速度、同一臺終端是否登錄多個賬號等一系列特征，來表達是薅羊毛用戶的可能性，這就是建立了薅羊毛用戶的特征工程。我們可以通過這些特征來判斷用戶的可疑程度。

特征過程包括以下四個流程：

數(shù)據(jù)清洗：數(shù)據(jù)預處理的重要環(huán)節(jié)，主要是對數(shù)據(jù)進行重新審查和校驗，檢查數(shù)據(jù)一致性、處理無效值和缺失值等。
特征提?。簭脑紨?shù)據(jù)中提取有用的特征，將其轉(zhuǎn)化為一組更具代表性和可解釋性的特征。特征提取的目的是減少原始數(shù)據(jù)的維度，提高數(shù)據(jù)的表達能力，幫助算法進行更好的完成任務。
特征選擇：篩選出對分類或回歸有重要貢獻的特征，從而降低數(shù)據(jù)集復雜度，提高模型的泛化能力。
生成訓練集和測試集：把整理過的數(shù)據(jù)分為訓練集和測試集，為模型訓練做最后的準備。

構(gòu)造機器學習模型的目的，是希望從原始數(shù)據(jù)中梳理出問題的結(jié)構(gòu)，學習到問題的本質(zhì)，那些優(yōu)質(zhì)的特征其實就是對問題本質(zhì)的最好詮釋，而如何找到優(yōu)質(zhì)特征自然也就成為了模型構(gòu)建的核心工作。

特征工程的內(nèi)容很多，也非常重要，建議自己主動去查一下資料，詳細了解一下數(shù)據(jù)清洗、數(shù)據(jù)提取、數(shù)據(jù)選擇的各種方法，對該環(huán)節(jié)了解越深入，和算法同學的溝通越順暢。

模型訓練是通過不斷訓練、驗證和調(diào)優(yōu)，讓模型達到最優(yōu)的過程。

這里的“最優(yōu)”，指的是模型擬合能力和泛化能力的平衡點。

如果想讓模型有足夠好的擬合能力，就需要構(gòu)建一個復雜的模型對訓練集進行訓練，但是模型越復雜就會越依賴訓練集的數(shù)據(jù)，就越可能出現(xiàn)訓練集的表現(xiàn)很好，但在測試集上表現(xiàn)差的情況，泛化能力比較差，這種情況叫做“過擬合”。

如果想讓提高模型的泛化能力，就要降低模型復雜度，減少對訓練集的依賴，但如果過度降低復雜度，又可能導致“欠擬合”的情況。

過擬合：模型把數(shù)據(jù)學習的太徹底，甚至把噪聲數(shù)據(jù)的特征也學習到了，就導致不能很好的識別未知數(shù)據(jù)，模型泛化能力下降。訓練集表現(xiàn)很好，但是測試集很差。讀的是“死書”，并沒有真正掌握書里的精髓，自然就無法很好的應用了。產(chǎn)生過擬合的原因一般有：特征過多，模型復雜度過高，樣本數(shù)據(jù)無法代表預定的分類，樣本噪音干擾過大等。
欠擬合：模型不能很好的捕捉數(shù)據(jù)特征，不能很好的擬合數(shù)據(jù)。在訓練集的表現(xiàn)就很差，需要繼續(xù)努力“學習”。產(chǎn)生欠擬合的原因一般有：模型復雜度過低、特征量過少等。

算法工程師就這樣不斷的調(diào)整模型參數(shù)、訓練，再用交叉驗證的方式，逐漸找到擬合能力和泛化能力的平衡點，這個平衡點就是我們訓練模型的目標。