如何從0到1快速搭建標注系統(tǒng)
編輯導語:在很多公司都會有標注系統(tǒng),標注系統(tǒng)屬于一種輔助型產(chǎn)品,我們對特定的對象進行標注;標注系統(tǒng)在使用中要注重它的穩(wěn)定性等,在設計過程中也有很多注意的點;本文作者分享了關于從0到1快速搭建標注系統(tǒng)的方法,我們一起來看一下。
一、明確標注目的
絕大部分的標注系統(tǒng),是一種輔助型的產(chǎn)品;按照一定的標注標準,由人工完成標注對象的標注,為業(yè)務系統(tǒng)、模型系統(tǒng)、數(shù)據(jù)系統(tǒng)等提供支持服務。
目前,市面上有不少提供標注服務的公司,但由于標注會涉及數(shù)據(jù)敏感、標注內(nèi)容歸屬、標注質(zhì)量等問題,不少有一定實力的公司,都會自行定制研發(fā)所需的產(chǎn)品,確保標注流程和結(jié)果處于可控狀態(tài)。
在進行標注系統(tǒng)的搭建之前,我們需要明確標注的目的所在:
- 標注結(jié)果的使用方是誰?是為業(yè)務服務,還是模型訓練使用?如果標注結(jié)果滿足要求,可以為使用方帶來怎樣的效果?
- 是否有強烈的需求,要定制開發(fā)標注系統(tǒng)?公司內(nèi)部其他標注系統(tǒng)是否可滿足,用excel等工具進行線下標注是否可滿足,以及不滿足的點是什么?
- 標注的類型是什么?是視頻、圖片、文字、音頻?是分類標注(通常是可枚舉的分類,標注對象屬于某一類或多累,比如新聞分類中的時政、財經(jīng)、體育、社會等),還是識別性標注(通常是不可枚舉得,比如,要識別出一個視頻中人物的性別、年齡范圍、胖瘦等)。
二、標注籌備
明確了為什么要開發(fā)標注產(chǎn)品以后,接下來需要進入標注服務的籌劃中:
1)明確標注標準,標注標準是標注工作開展的前提;它不僅關系標注人員手工標注的效率、質(zhì)量,還影響標注系統(tǒng)的搭建。這里對標注標準的最重要的要求就是,標注標準是準確的、可執(zhí)行的。
2)籌建標注團隊,標注團隊分為2類:
- 人工標注團隊:他們是標注系統(tǒng)的直接使用者,對整個標注服務至關重要;因此,在籌劃標注團隊的時候,要選擇認真仔細、有耐性的人員;在確定好標注標準后,還要對人工標注團隊進行培訓,并進行充分的溝通討論,防止標準設定人員與人工標注人員對于標準的理解有差,同時將標注效率、標注質(zhì)量作為人工標注人員的考核依據(jù);此外,還應該根據(jù)情況對人工標注團隊,進行標注員與質(zhì)檢員的角色劃分,前者負責標注工作,后者負責標注結(jié)果的抽查工作。
- 產(chǎn)品開發(fā)團隊:與大部分的產(chǎn)品團隊配置類似,產(chǎn)品、前后端、測試都不能少;最好可以把標注系統(tǒng)的使用方也拉進來,比如業(yè)務方產(chǎn)品、模型算法工程師等,聽取他們對于標注標準、系統(tǒng)功能和流程的建議。
3)了解標注需求量、預估日均標注量;這里主要是來評估標注量是否可以滿足需求量,以及標注結(jié)果的數(shù)據(jù)存儲等。
三、標注系統(tǒng)設計
一個基本的標注系統(tǒng)流程,應該包含以下幾個模塊:
按照箭頭所示的流程:
- 原始語料,進入數(shù)據(jù)庫。
- 標注系統(tǒng)從語料數(shù)據(jù)庫中,讀取未標注的語料。
- 標注完成的語料,進入質(zhì)量評估模塊。
- 質(zhì)量評估合格后,進入語料數(shù)據(jù)庫,作為已標注語料。
- 已標注的語料,同步給使用方進行使用。
下面對每一個模塊進行詳解:
1. 語料數(shù)據(jù)模塊
有幾個功能:
- 語料數(shù)據(jù)模塊,用來儲存語料數(shù)據(jù);區(qū)分已標注、未標注。
- 與系統(tǒng)外部對接,同步原始語料,輸出已標注語料。
2. 標注系統(tǒng)模塊
有以下子模塊:
- 任務分配:這里需要有一個語料任務分配機制,用來將語料分配給不同的標注員、質(zhì)檢員;這個分配機制可以是手動的,也可以是自動的,根據(jù)具體情況,來具體實現(xiàn)。
- 標準管理:是對標注標準進行管理的地方;主要包含2個功能:一是,對標注標準文檔進行管理和查閱,以方便標注人員在標注模棱兩可時快速獲取正確標準進行標注;二是,對標注的類型、類別、識別性標注輔助信息的配置功能,比如,針對新聞內(nèi)容的分類標注,有時政、財經(jīng)、社會、體育四個類別,需要加第5個類別房產(chǎn),就需要用到標準管理模塊。
- 語料標注:這是實現(xiàn)標注人員的核心標注界面。根據(jù)業(yè)務具體情況,可以是單條標注,也可以是列表式標注后統(tǒng)一提交等;需要說明的是,標注界面的展示信息要盡可能的完整,這樣標注員才能盡可能準確標注。
- 業(yè)務管理:由于標注系統(tǒng)不可能是服務于單一業(yè)務的,尤其是在大公司內(nèi)部,很多時候會接入很多標注業(yè)務;這個時候,就需要對業(yè)務進行管理,確認業(yè)務的標注目的、類型、標注量等,以及相關的申請、審核、權限工作。
3. 質(zhì)量評估模塊
我們對標注人員的效果衡量,通常從數(shù)量和質(zhì)量兩個維度。數(shù)量比如容易,就是簡單的標注數(shù)量統(tǒng)計。而質(zhì)量的評估會比較復雜,有兩種方式:
1)手動評估:這里是由質(zhì)檢員對標注員的標注結(jié)果進行抽查,來確定標注員的標注質(zhì)量;在抽查時,系統(tǒng)應提供給質(zhì)檢員對標注員的數(shù)量抽取和比例抽取兩種基礎抽查手段。
2)自動評估:由于面向的業(yè)務千差萬別,自動評估方式也應該各不相同的;對于類別標注,可以采取多人投票的形式,假設我們把1條語料,分配給A、B、C3個人進行標注,如果A和B標注的結(jié)果一致,與C不一致,那么我們按照少數(shù)服從多數(shù)的原則,默認A、B的結(jié)果是正確的,C是錯誤的;通過這種隨機抽取一定量的語料,分配給多人投票來進行自動評估,在一定程度上,是可以比較好的正確評估標注人員的質(zhì)量。
4. 其他模塊
- 數(shù)據(jù)統(tǒng)計:用來統(tǒng)計標注量、標注質(zhì)量、標注類別分布等情況;由于標注團隊的規(guī)模一般都比較大,在10人以上,且標注團隊關注的數(shù)據(jù),與產(chǎn)品人員不盡相同,這里也需要定制化的開發(fā)一些用于評估標注員績效考核的模塊。
- 角色權限:對標注系統(tǒng)進行權限管理的地方。角色通常有管理員、質(zhì)檢員、標注員等。
- 郵件報告:每日或每周通過郵件的形式,來獲取標注情況的報告。
以上僅是標注系統(tǒng)的簡單架構和說明。在實際的標注系統(tǒng)搭建過程中,還應該根據(jù)實際情況,進行調(diào)整。
四、實際上線使用
標注系統(tǒng)上線以后,應該重點關注:
- 標注的質(zhì)量、效率情況:一方面,了解標注人員的標注情況;另一方面需要對標注的成本、投入產(chǎn)出比有所預估,避免投入了大量標注人力進入,得到的結(jié)果卻是不盡人意。
- 對模型訓練、業(yè)務的效果提升:標注系統(tǒng)搭建的初衷就是來提升業(yè)務效果、提高模型的各項指標。系統(tǒng)上線后,要緊緊關注系統(tǒng)的使用效果,要多向業(yè)務貼合,避免淪為徹徹底底的工具型產(chǎn)品。
五、值得注意的點
文章結(jié)尾的地方,我來談談標注系統(tǒng)中值得注意的點:
首先,要保證標注標準的穩(wěn)定性;因為標注系統(tǒng)一旦上線開始運行,如果標注標準發(fā)生變更,前期的所有標注工作,都有可能推倒重來,造成人力的浪費。
其次,保證標注的質(zhì)量和效率;要把質(zhì)量和效率,作為標注系統(tǒng)后面迭代的優(yōu)化目標,但很多時候標注的質(zhì)量和效率,就好像是模型評判的準確率、召回率一樣,難以雙高;這時候就要看業(yè)務的重點關注是什么了,是否對質(zhì)量非常敏感,是否可以犧牲部分質(zhì)量,來推進標注效率。
最后,標注系統(tǒng)也可以推陳出新,與業(yè)務緊密結(jié)合;標注屬于典型的輔助型工具產(chǎn)品,在很多公司都屬于一次開發(fā),日后就基本不再迭代優(yōu)化的產(chǎn)品;這樣其實是非常浪費的,因為標注系統(tǒng)不僅有一個系統(tǒng)產(chǎn)品,還有海量的標注語料和人力;在某些場景下,可以充分利用這些語料、人力,去開辟一些與業(yè)務結(jié)合的方向出來。
#專欄作家#
木葉飛飛,blog:muyefeifei.com。人人都是產(chǎn)品經(jīng)理專欄作家。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
的確是從0-1的思考,借鑒了,謝謝
碼住
111