AI產(chǎn)品經(jīng)理如何做好數(shù)據(jù)準備工作
編輯導(dǎo)語:在所有產(chǎn)品類型中,AI產(chǎn)品是市場上較為吃香的。在AI產(chǎn)品領(lǐng)域,數(shù)據(jù)的準備工作是開始正式工作之前同樣重要的一部分。那么,該如何做好數(shù)據(jù)準備工作呢?
所有的產(chǎn)品類型中,估計AI產(chǎn)品是最吃數(shù)據(jù)的了,要訓(xùn)練模型必須喂養(yǎng)大量的數(shù)據(jù),2020 年 6 月 9 日,一款顱內(nèi)腫瘤核磁共振影像輔助診斷軟件獲得了中國藥監(jiān)局審批,拿到了影像輔助診斷領(lǐng)域的首張 III 類醫(yī)療器械證。
這套人工智能軟件對腦腫瘤的診斷準確率超過 90%,對其中常見類型的診斷準確率達到 96%。訓(xùn)練這款軟件的算法模型喂養(yǎng)了上百萬份影像病例,海量數(shù)據(jù)、強大算力以及高分辨率,讓人工智能歸納出來的一套新經(jīng)驗,使得它在影像診斷領(lǐng)域取得突破的基礎(chǔ)。
可以這么說,在AI產(chǎn)品領(lǐng)域,數(shù)據(jù)、算法、算力三分天下,同樣重要,數(shù)據(jù)的準備工作是開始產(chǎn)品設(shè)計和開發(fā)的必要的前期工作。
數(shù)據(jù)準備工作主要包括兩個部分,第一是數(shù)據(jù)收集,第二是數(shù)據(jù)清洗。
一、數(shù)據(jù)收集
數(shù)據(jù)收集顧名思義,就是收集訓(xùn)練所需的數(shù)據(jù),比如說,我要做一個人臉識別的模型,那么肯定是要收集人臉數(shù)據(jù),我要做個對話機器人系統(tǒng),肯定要收集語料數(shù)據(jù),我要做個有無佩戴安全帽識別,肯定要收集人帶安全帽的數(shù)據(jù)。
我要做個寵物狗的品類識別模型,就要收集各種狗的圖像數(shù)據(jù),并分類存儲。
數(shù)據(jù)收集簡而言之,就是把數(shù)據(jù)分類存儲好的過程,就像是我們做法,先去買菜的過程,并把菜分類存儲好的過程。
目前,數(shù)據(jù)收集主要有三個來源,分別是數(shù)據(jù)服務(wù)商采購、公開網(wǎng)絡(luò)收集、內(nèi)部數(shù)據(jù)。
數(shù)據(jù)提供商提供的數(shù)據(jù)一般質(zhì)量都比較好,數(shù)據(jù)比較大??梢灾苯幽脕碜瞿P陀?xùn)練工作。只不過這類數(shù)據(jù)一般價格比較高。
而且這類數(shù)據(jù)的類型一遍是通用型,對于一些小品類,垂直領(lǐng)域的的數(shù)據(jù)服務(wù)商一般沒有。例如下面這些,是一家外部提供商提供的數(shù)據(jù)。
網(wǎng)絡(luò)公開的數(shù)據(jù)比較好理解,就比如訓(xùn)練提問意圖,需要大量的提問意圖的短句,這時候可以從知乎爬取。因為知乎是個問答平臺。
第三種內(nèi)部數(shù)據(jù),也比較好理解,如果有內(nèi)部數(shù)據(jù)肯定是先用內(nèi)部數(shù)據(jù),他的獲取成本最低,還有就是一些小眾垂直領(lǐng)域,外部無法獲取也只能從內(nèi)部獲取。
例如疫情初期,北京腫瘤醫(yī)院新冠肺炎智能識別是基于5000多個病例的 CT 影像樣本數(shù)據(jù),學(xué)習(xí)訓(xùn)練樣本的病灶紋理,研發(fā)了全新的AI算法模型,可在20秒內(nèi)快速完成新冠肺炎影像的分析,分析結(jié)果準確率達96%。這些CT影像就屬于內(nèi)部數(shù)據(jù)。
二、數(shù)據(jù)清洗
數(shù)據(jù)收集完成之后還不能直接拿來用,需要做數(shù)據(jù)清洗,把這些數(shù)據(jù)變成可用的數(shù)據(jù)。這就好比從菜市場買完菜之后做洗菜和切菜的過程。
數(shù)據(jù)清洗主要是清洗三類數(shù)據(jù):
數(shù)據(jù)缺失解決辦法大體分為兩種,第一種是直接刪除,第二種是做填補。
數(shù)據(jù)格式不統(tǒng)一比較好解決,直接做歸一化處理就好。
存在異常值的情況,只需要找到異常值,并剔除掉就好。針對不同的數(shù)據(jù)的異常值找到方法也不盡相同。例如某學(xué)校3萬人體檢,手工錄入每個人體重,可以用3σ定律檢驗可找出錄入錯誤數(shù)據(jù)。
三、總結(jié)
數(shù)據(jù)收集和數(shù)據(jù)清洗工作在整個建模過程中很重要,數(shù)據(jù)的好壞直接影響最后模型的準確性。但是數(shù)據(jù)收集和數(shù)據(jù)清洗是個苦活,過程繁瑣并且技術(shù)含量不高,需要AI產(chǎn)品經(jīng)理和算法工程師一起完成,這塊會花費比較多的時間,一定要有耐心和細心。
#專欄作家#
老張,人人都是產(chǎn)品經(jīng)理專欄作家。AI產(chǎn)品經(jīng)理,專注于自然語言處理和圖像識別領(lǐng)域?,F(xiàn)智能保險創(chuàng)業(yè)公司合伙人,希望與人工智能領(lǐng)域創(chuàng)業(yè)者多多交流。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
博主能不能稍微加點深度, 再寫一些. 感謝
好,我再加把勁