人工智能的人工部分—數(shù)據(jù)標(biāo)注(上)
編輯導(dǎo)讀:人工智能的發(fā)展,是通過不斷學(xué)習(xí)已知樣本實現(xiàn)的。在監(jiān)督學(xué)習(xí)的情況下,人工的數(shù)據(jù)標(biāo)注是智能的前提與靈魂。本文作者對此進(jìn)行了分析,希望對你有幫助。
當(dāng)今社會人工智能領(lǐng)域蓬勃發(fā)展,各領(lǐng)域都在追求智能化,耳熟能詳?shù)挠兄悄荞{駛、智能家居、智能語音、智能推薦等。人工智能是通過機器學(xué)習(xí),大量學(xué)習(xí)已知樣本,有了預(yù)測能力之后再預(yù)測未知樣本,以達(dá)到智能化的效果,機器學(xué)習(xí)可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)的效果是不可控的,常常被用來做探索性的實驗。
在實際應(yīng)用中,通常是有監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí)就需要做數(shù)據(jù)標(biāo)注,所以智能的前提是人工,因為智能結(jié)果的輸出是多次人工樣本的輸入,可以說人工的數(shù)據(jù)標(biāo)注是智能的前提與靈魂,沒有人工就沒有智能,有多少人工就有多少智能。
一、數(shù)據(jù)標(biāo)注的分類
數(shù)據(jù)標(biāo)注從難易程度方面可劃分為常識性標(biāo)注與專業(yè)性標(biāo)注。例如,地圖識別領(lǐng)域的標(biāo)注多為常識性標(biāo)注,標(biāo)注道路、路牌、地圖等數(shù)據(jù),語音識別標(biāo)注也多為常識性標(biāo)注。做該類型標(biāo)注工作難點在于需要大量標(biāo)注訓(xùn)練樣本,因為應(yīng)用場景多樣且復(fù)雜,對標(biāo)注員無專業(yè)技能要求,主要是認(rèn)真負(fù)責(zé),任務(wù)完成效率快、質(zhì)量高的即為好的標(biāo)注員。
醫(yī)療診斷領(lǐng)域標(biāo)注多為專業(yè)性標(biāo)注,因為病種、癥狀的分類與標(biāo)注需要有醫(yī)療專業(yè)知識的人才能做,招聘領(lǐng)域標(biāo)注也屬于專業(yè)性標(biāo)注,因為標(biāo)注員需要熟知招聘業(yè)務(wù)、各崗位所需的知識技能,還需了解HR招人時的關(guān)注點,才能判斷簡歷是否符合職位的招聘要求。該類型的標(biāo)注工作需要有招聘領(lǐng)域?qū)I(yè)知識的標(biāo)注員,或者稱為標(biāo)注專家,標(biāo)注工作的難點比較多,例如選撥培養(yǎng)合適的標(biāo)注員、標(biāo)注規(guī)則的界定、標(biāo)注質(zhì)量的控制等多方面。
數(shù)據(jù)標(biāo)注從標(biāo)注目的方面可劃分為評估型標(biāo)注與樣本型標(biāo)注。
評估型標(biāo)注一般是為了評估模型的準(zhǔn)確率,發(fā)現(xiàn)一些Badcase樣例,然后優(yōu)化算法模型,該類型標(biāo)注工作為了節(jié)約標(biāo)注資源可控制標(biāo)注數(shù)量,一般情況下標(biāo)注千量級的數(shù)據(jù),樣本具有統(tǒng)計意義即可,標(biāo)注完成后需要統(tǒng)計正確率,以及錯誤樣例,該類型標(biāo)注的重點是錯誤樣例的原因總結(jié),分析每個Badcase出現(xiàn)的原因,并將原因歸納為不同的分類,有了原因分析方便算法同學(xué)分類型分批次的優(yōu)化模型。
樣本型標(biāo)注即為模型提供前期的訓(xùn)練樣本,作為機器學(xué)習(xí)的輸入,該類型標(biāo)注工作需要標(biāo)注大量數(shù)據(jù),一般情況下需要標(biāo)注萬量級的數(shù)據(jù)。為了樣本的均衡性,標(biāo)注樣本多是隨機抽取的,這樣做的優(yōu)點是可在一定程度上避免樣本偏差,但缺點是要標(biāo)注大量數(shù)據(jù)。如果是文本型樣本,有時可借助算法抽取一些高頻、高質(zhì)量樣本進(jìn)行標(biāo)注,這樣可一定程度上減少標(biāo)注工作量,但可能存在樣本偏差。總之樣本型標(biāo)注是個苦力活,業(yè)界有句話這么說的:如果你和一個人有仇,那么勸他去干標(biāo)注吧。
數(shù)據(jù)標(biāo)注從標(biāo)注對象方面可劃分為文本標(biāo)注、圖像標(biāo)注、語言標(biāo)注、視頻標(biāo)注,從標(biāo)注方式方面可劃分為分類標(biāo)注、標(biāo)框標(biāo)注、描點標(biāo)注,這些標(biāo)注分類基本都屬于標(biāo)注形式的差異,沒有較強的專業(yè)度,所以不做較多講述了。
二、數(shù)據(jù)標(biāo)注規(guī)則的制定
常識性標(biāo)注的規(guī)則比較簡單,標(biāo)注一部分樣本即可總結(jié)出較通用的規(guī)則,但專業(yè)性標(biāo)注的規(guī)則比較復(fù)雜,制定專業(yè)的標(biāo)注規(guī)則需要遵循以下三原則:多維分析與綜合分析相結(jié)合,因子權(quán)重影響因素場景化,問題類型標(biāo)簽化、結(jié)構(gòu)化。以下是招聘領(lǐng)域簡歷與職位匹配度標(biāo)注規(guī)則的指導(dǎo)思想,具體細(xì)節(jié)規(guī)則會在《數(shù)據(jù)標(biāo)注(下)》中闡述。該標(biāo)注規(guī)則比較符合標(biāo)注規(guī)則制定的三原則。
第一,多維分析與綜合分析相結(jié)合。
簡歷與職位的匹配度影響因素肯定是多維的,不能只參考工作經(jīng)歷或?qū)I(yè)要求一個因子,或者某幾個因子,要多維分析,最終再給出綜合評分結(jié)果。當(dāng)然簡歷與職位的匹配標(biāo)注也不可能一上來就能給出綜合的評分,不能純感性的告訴標(biāo)注員:你覺得是簡歷與職位非常匹配就給分,不匹配就不給分,這在邏輯上也不合理。所以要先給單一因子打分,然后參考每個因子的評分結(jié)果,最終再進(jìn)行綜合分析給出評分結(jié)果。
第二,因子權(quán)重影響因素場景化。
前面有提到簡歷與職位匹配度評估需要給每個因子打分,那每個因子打分結(jié)束后怎么給出綜合評分呢,給每個因為賦予權(quán)重嗎?然后按權(quán)重計算總分?答案是否定的,我們要結(jié)合具體場景把所有因子進(jìn)行歸類分析,比如設(shè)定一些重要因子,如果重要因子不匹配可能就直接不給分,比如工作經(jīng)歷代表的是一個人的勝任力,如果該候選人不具備該崗位的勝任力,總分肯定是0分。還有一些因子雖然不是很重要,但會影響評分,有些因子時而重要時而不重要,比如年齡,HR想要1-3年經(jīng)驗的行政專員,候選人40歲,該情況肯定會影響最終評分且很有可能總分是0分。所以把所有影響因子結(jié)合場景進(jìn)行歸類分析是十分必要的。
第三,問題類型標(biāo)簽化、結(jié)構(gòu)化。
標(biāo)注結(jié)果一般情況下會以分?jǐn)?shù)的形式展示,ABCD,或者0123,然后一組數(shù)據(jù)沒有得到滿分是因為什么呢?哪里不匹配呢?所以前期制定標(biāo)注規(guī)則時一定要把原因分析考慮進(jìn)去,列出所有不匹配的原因,形成結(jié)構(gòu)化的原因標(biāo)簽,有利于最終分析Badcase的分類與占比,然后算法或者策略團(tuán)隊在優(yōu)化時可以優(yōu)先解決占比高或影響惡劣的case。
數(shù)據(jù)標(biāo)注是一項看似簡單實際卻十分復(fù)雜的工作,涉及標(biāo)注分類、標(biāo)注規(guī)則制定、標(biāo)注原因分析、標(biāo)注系統(tǒng)搭建、標(biāo)注團(tuán)隊管理等,尤其涉及到專業(yè)領(lǐng)域的標(biāo)注則更困難,本篇主要介紹了標(biāo)注分類、標(biāo)注規(guī)則制定,細(xì)節(jié)的標(biāo)注規(guī)則以及標(biāo)注系統(tǒng)的搭建,標(biāo)注團(tuán)隊管理會在后續(xù)更新,希望大家持續(xù)關(guān)注,感謝閱讀!
本文由 @艷杰 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
你好可以方便問一下如何設(shè)計規(guī)劃一款標(biāo)注工具呢
數(shù)據(jù)標(biāo)注看似很難,但是根據(jù)作者的一篇文章理解了不少,作者的文章講的很詳細(xì)。
感謝認(rèn)可,感謝評論!
數(shù)據(jù)標(biāo)注這一個環(huán)節(jié)算是人工智能一個很大的突破了,繼續(xù)加油
感謝鼓勵,共同加油!
人工智能依托的還是人工,至于數(shù)據(jù)標(biāo)注這一部分,一定也是需要人工的樣本的
是的,有多少人工就有多少智能!
又是人工智能,這個話題真的一直都在引發(fā)熱議,人工智能的技術(shù)也在不斷的升級
是的,隨時隨地被人工智能監(jiān)控著,哈哈!
把所有影響因子結(jié)合場景進(jìn)行歸類分析是十分必要的。
是的,這只是某些場景的舉例,還有很多細(xì)分場景。