數(shù)據(jù)挖掘建模:如何從數(shù)據(jù)中“淘金”?
本文筆者將對數(shù)據(jù)挖掘建模的一般過程進(jìn)行解析,主要分為四部分:數(shù)據(jù)準(zhǔn)備、模式發(fā)現(xiàn)、模型構(gòu)建以及模型評價(jià)。
數(shù)據(jù)挖掘介紹
數(shù)據(jù)挖掘(Data Mining,DM):就是從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、未知的、對決策有潛在價(jià)值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程;是利用各種分析工具在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)之間關(guān)系的過程。這些模型和關(guān)系可以被企業(yè)用來分析風(fēng)險(xiǎn)、進(jìn)行預(yù)測。
數(shù)據(jù)挖掘的目的就是從數(shù)據(jù)中“淘金”,就是從數(shù)據(jù)中獲取智能的過程,數(shù)據(jù)挖掘是提供了從數(shù)據(jù)到價(jià)值的解決方案。
數(shù)據(jù)+工具+方法+目標(biāo)+行動(dòng)=價(jià)值。
目前,數(shù)據(jù)挖掘已有一系列應(yīng)用:
- 分類分析:有監(jiān)督學(xué)習(xí),將數(shù)據(jù)映射到事先定義的群組或類。應(yīng)用在將信用卡人分為低中高風(fēng)險(xiǎn)群等。
- 回歸分析:用屬性的歷史數(shù)據(jù)預(yù)測未來趨勢,應(yīng)用預(yù)測哪些用戶在未來半年會流失等。
- 聚類分析:無指導(dǎo)學(xué)習(xí),在沒有給定劃分類的情況下,根據(jù)信息相似度進(jìn)行信息聚類。應(yīng)用在對客戶行為分析,對客戶分層進(jìn)行精準(zhǔn)營銷。
- 關(guān)聯(lián)分析:發(fā)現(xiàn)事物間的關(guān)聯(lián)規(guī)則或稱相關(guān)程度,常用在交叉銷售,交叉分析,著名的啤酒與尿布。
- 時(shí)序模式:已知的數(shù)據(jù)預(yù)測未來的值,回歸不強(qiáng)調(diào)數(shù)據(jù)間的先后順序。
- 偏差分析:來發(fā)現(xiàn)與正常情況不同的異常和變化,并進(jìn)一步分析這種變化是有意的詐騙行為,還是正常的變化。常用在防欺詐,以及保險(xiǎn)領(lǐng)域。
以上這些應(yīng)用涉及的技術(shù)和工具各不相同,然而卻可以依據(jù)統(tǒng)一的方法論來實(shí)行,并可以協(xié)同作戰(zhàn),解決許多有價(jià)值的商業(yè)問題。
數(shù)據(jù)挖掘建模的一般過程
第一步,數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)選擇主要考慮的包括:
- 哪些數(shù)據(jù)源可用?
- 哪些數(shù)據(jù)與當(dāng)前挖掘目標(biāo)相關(guān)?
- 如何保證取樣數(shù)據(jù)的質(zhì)量?
- 是否在足夠范圍內(nèi)有代表性?
- 數(shù)據(jù)樣本取多少合適?
- 如何分類(訓(xùn)練集、驗(yàn)證集、測試集)?
選擇數(shù)據(jù)的標(biāo)準(zhǔn),一是相關(guān)性,二是可靠性,三是最新性,而不是動(dòng)用全部企業(yè)數(shù)據(jù)。通過數(shù)據(jù)樣本的精選,不僅能減少數(shù)據(jù)處理量,節(jié)省系統(tǒng)資源,而且能通過數(shù)據(jù)的篩選,使想要反映的規(guī)律性更加突顯出來。
1)數(shù)據(jù)探索:數(shù)據(jù)清洗和構(gòu)造
前面所敘述的數(shù)據(jù)選擇,多少是帶著人們對如何達(dá)到數(shù)據(jù)挖掘目的的先驗(yàn)認(rèn)識進(jìn)行操作的。
當(dāng)我們拿到了一個(gè)樣本數(shù)據(jù)集后,它是否達(dá)到我們原來設(shè)想的要求?其中有沒有什么明顯的規(guī)律和趨勢?有沒有出現(xiàn)從未設(shè)想過的數(shù)據(jù)狀態(tài)?因素之間有什么相關(guān)性?它們可區(qū)分成怎樣一些類別?這都是要首先探索的內(nèi)容。
對所抽取的樣本數(shù)據(jù)進(jìn)行探索、審核和必要的加工處理,是保證預(yù)測質(zhì)量所必需的。可以說,預(yù)測的質(zhì)量不會超過抽取樣本的質(zhì)量。
數(shù)據(jù)探索主要包括:異常值分析、缺失值分析、相關(guān)分析、周期性分析、樣本交叉驗(yàn)證等。
2)數(shù)據(jù)預(yù)處理:整合和格式化
當(dāng)采樣數(shù)據(jù)維度過大,如何進(jìn)行降維處理?采樣數(shù)據(jù)中的缺失值如何處理?這些都是數(shù)據(jù)預(yù)處理要解決的問題。
由于采樣數(shù)據(jù)中常常包含許多含有噪聲、不完整、甚至是不一致的數(shù)據(jù)。顯然對數(shù)據(jù)挖掘所涉及的數(shù)據(jù)對象必須進(jìn)行預(yù)處理。那么,如何對數(shù)據(jù)進(jìn)行預(yù)處理以改善數(shù)據(jù)質(zhì)量,并最終達(dá)到完善最終的數(shù)據(jù)挖掘結(jié)果的目的呢?
數(shù)據(jù)預(yù)處理主要包括以下內(nèi)容:數(shù)據(jù)篩選、數(shù)據(jù)變量轉(zhuǎn)換、缺失值處理、壞數(shù)據(jù)處理、數(shù)據(jù)標(biāo)準(zhǔn)化、主成分分析、屬性選擇、數(shù)據(jù)規(guī)約。
第二步,模式發(fā)現(xiàn)
樣本抽取完成并經(jīng)預(yù)處理后,接下來要考慮的問題是:本次建模屬于數(shù)據(jù)挖掘應(yīng)用中的哪類問題(分類、聚類、關(guān)聯(lián)規(guī)則或者時(shí)序模式),選用哪種算法進(jìn)行模型構(gòu)建?
模型構(gòu)建的前提是在樣本數(shù)據(jù)集中發(fā)現(xiàn)模式,比如:關(guān)聯(lián)規(guī)則、分類預(yù)測、聚類分析、時(shí)序模式等。
在目標(biāo)進(jìn)一步明確化的基礎(chǔ)上,我們就可以按照問題的具體要求來重新審視已經(jīng)采集的數(shù)據(jù),看它是否適應(yīng)挖掘目標(biāo)的需要。
第三步, 模型構(gòu)建
確定了本次建模所屬的數(shù)據(jù)挖掘應(yīng)用問題(分類、聚類、關(guān)聯(lián)規(guī)則或者時(shí)序模式)后,還需考慮:具體應(yīng)該采用什么算法,實(shí)施步驟是什么?
這一步是數(shù)據(jù)挖掘工作的核心環(huán)節(jié),模型構(gòu)建是對采樣數(shù)據(jù)軌跡的概括,它反映的是采樣數(shù)據(jù)內(nèi)部結(jié)構(gòu)的一般特征,并與該采樣數(shù)據(jù)的具體結(jié)構(gòu)基本吻合。
預(yù)測模型的構(gòu)建通常包括模型建立、模型訓(xùn)練、模型驗(yàn)證和模型預(yù)測4個(gè)步驟,但根據(jù)不同的數(shù)據(jù)挖掘分類應(yīng)用會有細(xì)微的變化。
第四步, 模型評價(jià)
模型評價(jià)的目的是什么?如何評價(jià)模型的效果?通過什么評價(jià)指標(biāo)來衡量?
模型效果評價(jià)通常分兩步:
第一步是:直接使用原來建立模型的樣本數(shù)據(jù)來進(jìn)行檢驗(yàn)。
假如這一步都通不過,那么所建立的決策支持信息價(jià)值就不太大了。一般來說,在這一步應(yīng)得到較好的評價(jià)。這說明你確實(shí)從這批數(shù)據(jù)樣本中挖掘出了符合實(shí)際的規(guī)律性。
第一步通過后,第二步是:另外找一批數(shù)據(jù),已知這些數(shù)據(jù)是反映客觀實(shí)際的、規(guī)律性的。
業(yè)務(wù)應(yīng)用場景:網(wǎng)紅銷售額評估模型、客戶ROI評估模型、網(wǎng)紅品類推薦模型、網(wǎng)紅報(bào)價(jià)建議模型、網(wǎng)紅欺詐行為預(yù)警模型、網(wǎng)紅流失預(yù)警模型等
結(jié)論
實(shí)踐表明:由于人工智能發(fā)展的局限性,計(jì)算機(jī)在未來相當(dāng)長的一段時(shí)期內(nèi)不可能像人類這樣會進(jìn)行復(fù)雜的思考,它只會按照人的指令工作。
但是,計(jì)算機(jī)擁有海量的數(shù)據(jù)存儲能力和超強(qiáng)的計(jì)算能力,所以只要我們建立合適的業(yè)務(wù)模型,設(shè)計(jì)完善的執(zhí)行程序,選擇正確的分析算法,它一定可以更好地為我們服務(wù)。
數(shù)據(jù)挖掘技術(shù)是一個(gè)年輕且充滿希望的研究領(lǐng)域,商業(yè)利益的強(qiáng)大驅(qū)動(dòng)力將會不停地促進(jìn)它的發(fā)展。
每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對它的研究正日益廣泛和深入。盡管如此,數(shù)據(jù)挖掘技術(shù)仍然面臨著許多問題和挑戰(zhàn):如數(shù)據(jù)挖掘方法的效率亟待提高,尤其是超大規(guī)模數(shù)據(jù)集中數(shù)據(jù)挖掘的效率;開發(fā)適應(yīng)多數(shù)據(jù)類型、容噪的挖掘方法,以解決異質(zhì)數(shù)據(jù)集的數(shù)據(jù)挖掘問題;動(dòng)態(tài)數(shù)據(jù)和知識的數(shù)據(jù)挖掘;網(wǎng)絡(luò)與分布式環(huán)境下的數(shù)據(jù)挖掘等。
另外,近年來短視頻,圖片等多媒體數(shù)據(jù)庫發(fā)展很快,面向多媒體數(shù)據(jù)庫的挖掘技術(shù)今后將成為研究開發(fā)的熱點(diǎn)。
本文由 @無語凝咽 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自Unsplash,基于CC0協(xié)議
大佬是否可以具一個(gè)具體的實(shí)操例子呢?有了例子更方便建立理論與實(shí)踐的聯(lián)系
洋洋灑灑比較籠統(tǒng)