非結(jié)構(gòu)化建模VS結(jié)構(gòu)化建模VS傳統(tǒng)制造業(yè)建模

1 評(píng)論 7196 瀏覽 5 收藏 9 分鐘

編輯導(dǎo)讀:從事建模方向的人應(yīng)該對(duì)非結(jié)構(gòu)化建模、結(jié)構(gòu)化建模、傳統(tǒng)制造業(yè)建模并不陌生,都是現(xiàn)代數(shù)字化建設(shè)的要求。本文作者根據(jù)自己的從業(yè)經(jīng)驗(yàn),對(duì)這三個(gè)概念進(jìn)行分析,希望對(duì)你有幫助。

此次,向大家分享建模方面的經(jīng)驗(yàn)和一點(diǎn)想法,歡迎各位大佬批評(píng)指正。

一、非結(jié)構(gòu)化

截止目前,筆者在建模方面的經(jīng)驗(yàn)主要有電商評(píng)論—虛假電商評(píng)論檢測(cè),如我們?cè)诰W(wǎng)上面進(jìn)行購(gòu)物時(shí),會(huì)參考其商品的評(píng)分,評(píng)價(jià),通過(guò)汲取其他人的購(gòu)買體驗(yàn),來(lái)作為是否購(gòu)買的一個(gè)加權(quán),也因此很多不良商家,為了提高知名度和消費(fèi)量,會(huì)存在惡意刷好評(píng)的情況,錯(cuò)誤的引導(dǎo)消費(fèi)者。

為了更細(xì)致的了解其運(yùn)作模式,筆者也曾“臥底”了一回—為某個(gè)賣服裝的代寫好評(píng),后續(xù)斷斷續(xù)續(xù)追蹤半個(gè)月,發(fā)現(xiàn)其成交量出現(xiàn)了穩(wěn)步增長(zhǎng),具體是虛假交易,還是由虛假交易引起口碑影響力帶動(dòng)真消費(fèi),不再探究。也因此筆者覺(jué)得虛假評(píng)論的檢測(cè)具備一定道德層面的積極意義。

在電商評(píng)論中,獲取的數(shù)據(jù)為文本型數(shù)據(jù),通過(guò)傳統(tǒng)的主題模型等機(jī)器學(xué)習(xí)方法可以對(duì)之進(jìn)行主題-詞的抽取,進(jìn)而獲取相關(guān)的核心主題進(jìn)行進(jìn)一步的建模。

同時(shí),較之于數(shù)值型數(shù)據(jù),文本數(shù)據(jù)無(wú)法直接被電腦讀取,需要轉(zhuǎn)化為數(shù)值型格式,這里提及一些方法可供參考,LDA主題模型,可以獲取每個(gè)詞的概率值,雖然限定了特定主題和特定文本,但是某種程度上也可以使用進(jìn)行文本數(shù)值化;Word2vec(WordEmbedding),谷歌公布的文本向量化包,可以對(duì)文本進(jìn)行向量化處理,但是Word2vec更多是也是對(duì)于詞袋模型中的詞進(jìn)行處理,在進(jìn)行上下文的聯(lián)動(dòng)上存在一定的不足之處,這也就致使了另一項(xiàng)更加強(qiáng)大的詞向量化工具Bert應(yīng)運(yùn)而生。

對(duì)于文本數(shù)據(jù),有一個(gè)很有意思的研究趨勢(shì)是“大”,如微軟和英偉達(dá)近期聯(lián)合推出的迄今為止最大和最強(qiáng)的語(yǔ)言模型—Megatron-Turing (MT-NLP),該模型包含5300億個(gè)參數(shù),幾乎等同于人的神經(jīng)個(gè)數(shù),據(jù)表述,該模型在預(yù)測(cè),閱讀理解,常識(shí)論證,自然語(yǔ)言推理,詞義消歧等自然處理領(lǐng)域具備優(yōu)越的性能。

筆者驚艷其模型的規(guī)模與性能,同時(shí)也有點(diǎn)小小的思考,人工智能模型本身存在難以解釋的不足,當(dāng)模型規(guī)模擴(kuò)大,效果提升到一定水平,是否就可以不需要解釋了呢?

二、結(jié)構(gòu)化

很多報(bào)告說(shuō)現(xiàn)在存在很多的單身男女,我覺(jué)得怎么會(huì)呢?手機(jī),自發(fā)布到目前2021年,已經(jīng)成為我們新的老婆(老公),從工作到生活,形影不離,忠貞不渝。

筆者曾出差4天,說(shuō)想念媳婦到茶飯不思那是不可能的,生活依舊,然而某天手機(jī)以外跌落地上,致使手機(jī)無(wú)法使用,在網(wǎng)購(gòu)等待的一天里,我經(jīng)歷了焦慮,恐慌,無(wú)所是從,手足無(wú)措等等,真沒(méi)了“媳婦”,是否部分伙伴和我一樣,是否由此可以推斷,手機(jī)已經(jīng)成為了我們生活所需的基本要素,而手機(jī)正常運(yùn)作的一項(xiàng)基礎(chǔ)-網(wǎng)絡(luò)通訊是否也已經(jīng)成為我們生活中無(wú)法割舍的一部分。

因此對(duì)結(jié)構(gòu)化數(shù)據(jù)建模的一個(gè)分析,就以通訊行業(yè)為例,雖然是以前從事的工作內(nèi)容,但是考慮到曾作為一名該行業(yè)員工的規(guī)范性,此處和下面的制造業(yè)建模均不過(guò)于深入和具體描述。在通訊行業(yè)中客戶的信息均以固定的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中,通過(guò)使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法如貝葉斯網(wǎng)絡(luò),決策樹(shù)(可解釋性高)可以對(duì)之進(jìn)行建模,而在2018年左右大火的深度學(xué)習(xí)技術(shù)如LSTM等,也可以應(yīng)用于其中,提高模型的準(zhǔn)確率,進(jìn)而在業(yè)務(wù)賦能的過(guò)程中添磚加瓦。

然而根據(jù)筆者的行業(yè)經(jīng)歷,在使用LSTM對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行建模過(guò)程中,其準(zhǔn)確率較之于傳統(tǒng)的機(jī)器學(xué)習(xí)方法雖然能提高至少10%的準(zhǔn)確率和預(yù)測(cè)成功率(業(yè)務(wù)檢驗(yàn)),但是對(duì)之于一些觸及決策性質(zhì)或者需要解釋性強(qiáng)的業(yè)務(wù)問(wèn)題,LSTM就顯得愛(ài)莫能助,只能求助于傳統(tǒng)的可解釋性強(qiáng)的決策樹(shù),貝葉斯網(wǎng)絡(luò)和基于經(jīng)驗(yàn)規(guī)則的建模。因此,如何構(gòu)建可解釋透明的深度學(xué)習(xí)模型就顯得愈發(fā)重要,這也是當(dāng)前科研領(lǐng)域正在破解的難題之一。

三、制造業(yè)

對(duì)于諸葛亮,有這樣一句話描述,“運(yùn)籌”帷幄,決勝千里之外。而在現(xiàn)代,“混合整數(shù)規(guī)劃”,亦有“運(yùn)籌”帷幄職之能。這里的運(yùn)籌,我們簡(jiǎn)單理解為運(yùn)籌學(xué),包含諸如普通線性規(guī)劃,整數(shù)規(guī)劃,混合整數(shù)規(guī)劃,蟻群算法,遺傳算法等,而對(duì)于現(xiàn)代工廠,企業(yè)而言,其復(fù)雜的業(yè)務(wù)系統(tǒng),一般需要使用混合整數(shù)規(guī)劃來(lái)進(jìn)行建模。

因此對(duì)傳統(tǒng)制造業(yè)建模而言,同結(jié)構(gòu)化數(shù)據(jù)建模和非結(jié)構(gòu)化數(shù)據(jù)建模又有所不同,在傳統(tǒng)制造業(yè)中,資源是限定的,市場(chǎng)需求是需要滿足的,而從資源到市場(chǎng)中間所觸及的原材料到成品的過(guò)程是復(fù)雜和高度相關(guān)的,這就限制了傳統(tǒng)機(jī)器學(xué)習(xí),以及現(xiàn)如今比較火的深度學(xué)習(xí)的使用,一個(gè)國(guó)內(nèi)發(fā)展尚還弱小,但是很必要的學(xué)科就發(fā)揮了作用—運(yùn)籌學(xué)。

目前筆者主要接觸的是使用混合整數(shù)規(guī)劃對(duì)其進(jìn)行建模,觸及分支定界,啟發(fā)式搜索等算法,存在多目標(biāo)求解,NP-Hard等諸多調(diào)整和問(wèn)題,時(shí)間復(fù)雜度和空間復(fù)雜度是一個(gè)繞不開(kāi)的坎?,F(xiàn)實(shí)情況下,約束較多,基礎(chǔ)數(shù)據(jù)量大,致使問(wèn)題規(guī)模甚至?xí)仙桨賰|級(jí)別,出現(xiàn)有限時(shí)間內(nèi)無(wú)法求解的情況,即使通過(guò)一定的處理,也會(huì)存在求解時(shí)間過(guò)久的問(wèn)題,這在實(shí)際使用上就顯得略為雞肋。

對(duì)于混合整數(shù)規(guī)劃建模來(lái)講,解釋性強(qiáng),業(yè)務(wù)建模契合度更高,在硬件固定的情況下,如何通過(guò)算法改善時(shí)間和空間復(fù)雜度呢?因此如何在保障貼合業(yè)務(wù)需求的基本要求下,巧妙的設(shè)計(jì)模型框架也顯得尤為重要。

四、綜述

非結(jié)構(gòu)也好,結(jié)構(gòu)也好,運(yùn)籌建模也好,都是現(xiàn)代數(shù)字化建設(shè)的要求,雖說(shuō)業(yè)務(wù)不同,領(lǐng)域不同,但都是通過(guò)對(duì)業(yè)務(wù)賦能,達(dá)到降本,增效,創(chuàng)收的目標(biāo)。算法之路漫漫,筆者學(xué)時(shí)有限,歡迎各位大佬指教。

 

作者:賈少華,內(nèi)蒙古大學(xué)計(jì)算機(jī)學(xué)院碩士;前某IT公司數(shù)據(jù)挖掘工程師;現(xiàn)某乳業(yè)資源規(guī)劃高級(jí)專員;深度中二少年,動(dòng)漫無(wú)敵;“數(shù)據(jù)人創(chuàng)作者聯(lián)盟”成員。

本文由@一個(gè)數(shù)據(jù)人的自留地 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于CC0協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 建模確實(shí)是一個(gè)更直觀的表達(dá),無(wú)論是非結(jié)構(gòu)化,結(jié)構(gòu)化,還是傳統(tǒng),只要能幫助到就是好的方式

    來(lái)自北京 回復(fù)