如何定性內(nèi)容?先有標(biāo)準(zhǔn)后有天,用算法的眼光看內(nèi)容

0 評(píng)論 4657 瀏覽 24 收藏 12 分鐘

定制標(biāo)準(zhǔn)也是一門技術(shù)活,并非單純羅列條款那么簡(jiǎn)單。本文作者用一個(gè)內(nèi)容標(biāo)準(zhǔn)的實(shí)例來(lái)跟大家解釋,看怎樣的內(nèi)容標(biāo)準(zhǔn)才是合格的,一起來(lái)看看~

有一條視頻描述了這樣的場(chǎng)景:在某綜藝節(jié)目中,一個(gè)籃球明星表演踢足球。

那么這條內(nèi)容應(yīng)該屬于什么主題合適呢?

運(yùn)營(yíng)甲認(rèn)為是綜藝,因?yàn)橐曨l的上下文是綜藝節(jié)目;運(yùn)營(yíng)乙認(rèn)為是足球,因?yàn)橐曨l內(nèi)主要的活動(dòng)是在踢足球;運(yùn)營(yíng)丙則認(rèn)為是籃球,因?yàn)橹饕宋锸莻€(gè)籃球明星。

公說(shuō)公有理婆說(shuō)婆有理,大家各執(zhí)一詞最后無(wú)法形成共識(shí),各自按各自的想法工作,導(dǎo)致統(tǒng)計(jì)口徑不一致,嚴(yán)重影響業(yè)務(wù)的判斷。

1. 為什么需要標(biāo)準(zhǔn)?

內(nèi)容識(shí)別主要運(yùn)用在內(nèi)容分發(fā)和內(nèi)容決策兩個(gè)方面,在分發(fā)之前系統(tǒng)需要利用規(guī)則或者模型識(shí)別出內(nèi)容的特征,方便給用戶匹配感興趣的內(nèi)容。

以主題分類為例,我們需要一個(gè)模型能夠自動(dòng)識(shí)別一篇文章的主題是新聞、體育還是其它。而模型的訓(xùn)練很大程度上依賴于樣本的標(biāo)注,如果標(biāo)注同學(xué)沒(méi)有依據(jù)統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行標(biāo)注,那標(biāo)注的準(zhǔn)確率就會(huì)很低,而以這些低準(zhǔn)確度樣本訓(xùn)練的模型準(zhǔn)確率必然更低,這將直接導(dǎo)致主題模型不可用。

從內(nèi)容決策的角度,錯(cuò)誤的識(shí)別結(jié)果將直接導(dǎo)致錯(cuò)誤的運(yùn)營(yíng)決策。假設(shè)上面訓(xùn)練出的錯(cuò)誤模型會(huì)把新聞?lì)惖膬?nèi)容都標(biāo)注成體育,這樣運(yùn)營(yíng)人員誤以為體育類內(nèi)容很受歡迎從而大力引入、扶植體育類內(nèi)容。最后不但導(dǎo)致浪費(fèi)了大量資源,而且用戶真正感興趣的新聞?lì)悆?nèi)容受到擠占,體驗(yàn)也相應(yīng)地變差。

“標(biāo)”是投射器,“準(zhǔn)”是靶心。標(biāo)準(zhǔn)合用,意為行為和結(jié)果要相符,常用于工業(yè)生產(chǎn)領(lǐng)域。

國(guó)家標(biāo)準(zhǔn)GB/T 3935.1—83定義:

“標(biāo)準(zhǔn)是對(duì)重復(fù)性事物和概念所做的統(tǒng)一規(guī)定,它以科學(xué)、技術(shù)和實(shí)踐經(jīng)驗(yàn)的綜合為基礎(chǔ),經(jīng)過(guò)有關(guān)方面協(xié)商一致,由主管機(jī)構(gòu)批準(zhǔn),以特定的形式發(fā)布,作為共同遵守的準(zhǔn)則和依據(jù)。”

從國(guó)標(biāo)的定義可以看出標(biāo)準(zhǔn)針對(duì)重復(fù)性的事物,結(jié)合實(shí)踐,目的是讓參與各方達(dá)成一致共同遵守。標(biāo)準(zhǔn)的一般呈現(xiàn)形式是一個(gè)文檔,可以附帶解釋說(shuō)明的文件。

對(duì)于給內(nèi)容分類打標(biāo)這樣重復(fù)性的工作,主觀性極強(qiáng),如果不能統(tǒng)一參與同學(xué)的想法,打標(biāo)效果就會(huì)有很大的水分。而且后面新來(lái)的同學(xué)也不能利用之前積累的經(jīng)驗(yàn),一開(kāi)始工作可能無(wú)從下手,效率極低。

因此我們需要套用工業(yè)領(lǐng)域的標(biāo)準(zhǔn),在內(nèi)容領(lǐng)域建立內(nèi)容標(biāo)準(zhǔn),統(tǒng)一所以參與者的判斷,出現(xiàn)不一致的情況下也能有據(jù)可依。

2. 如何制定標(biāo)準(zhǔn)

定制標(biāo)準(zhǔn)也是一門技術(shù)活,并非單純羅列條款那么簡(jiǎn)單。我們接下來(lái)聊聊什么樣的內(nèi)容標(biāo)準(zhǔn)才是合格的,并用一個(gè)內(nèi)容標(biāo)準(zhǔn)的實(shí)例來(lái)加以說(shuō)明。

(1)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)

標(biāo)準(zhǔn)的核心目標(biāo)是讓使用者能夠快速與標(biāo)準(zhǔn)的描述達(dá)成一致,為了制訂提高標(biāo)準(zhǔn)的質(zhì)量和效率,可以給標(biāo)準(zhǔn)也規(guī)范標(biāo)準(zhǔn),這樣在后續(xù)制訂各種不同標(biāo)準(zhǔn)的時(shí)候就有了參考依據(jù)。

  • 明確目標(biāo):首先需要明確的是標(biāo)準(zhǔn)的目標(biāo),整個(gè)標(biāo)準(zhǔn)主要面向什么類型的內(nèi)容,有什么目的。讓使用者充分意識(shí)到它的使用場(chǎng)景和價(jià)值,這樣有利于標(biāo)準(zhǔn)后續(xù)的推動(dòng)和執(zhí)行;
  • 描述清晰:標(biāo)準(zhǔn)的描述語(yǔ)言盡量客觀中立,不容易引起歧義,用定性的語(yǔ)言讓使用者大致了解描述的是什么樣的內(nèi)容,給使用者一個(gè)大致的預(yù)期。但是定性描述還是含糊的,這時(shí)候需要定量描述來(lái)補(bǔ)充說(shuō)明。如判斷圖片模糊的標(biāo)準(zhǔn)有兩條候選。第一條是“圖片模糊不清”;而第二條則更細(xì)致,“人物五官不清晰,出現(xiàn)明顯的鋸齒或馬賽克或圖片一半以上的面積模糊不清”。兩邊對(duì)比顯然后者不容易產(chǎn)生歧義,方便執(zhí)行;
  • 抓大放?。?/strong>標(biāo)準(zhǔn)創(chuàng)作者的精力和知識(shí)有限,不可能窮舉所有的情況。因此優(yōu)先描述主要情況,對(duì)于不常見(jiàn)的情況可以忽略或簡(jiǎn)單描述。至于哪些是常見(jiàn)情況可以抽樣統(tǒng)計(jì)獲得;
  • 突出案例:如同英美法系以判例為重要依據(jù),在標(biāo)準(zhǔn)的條款中加入真實(shí)的案例遠(yuǎn)比文字描述更加生動(dòng)形象。值得注意的是反例和正例一樣重要,反例就是那些容易出錯(cuò)的例子,加入到標(biāo)準(zhǔn)中有助于避免此類情況發(fā)生;
  • 明確邊界:對(duì)于模糊有歧義的情況或者經(jīng)常被誤判的情況應(yīng)當(dāng)專門加以說(shuō)明。

(2)一個(gè)典型的標(biāo)準(zhǔn)

下面展示一個(gè)實(shí)際被運(yùn)用且符合上訴標(biāo)準(zhǔn)的“惡心(gross)內(nèi)容標(biāo)準(zhǔn)”,由于案例圖片可能引起讀者不適就不在此呈現(xiàn),但是真實(shí)標(biāo)準(zhǔn)中需要體現(xiàn):

1)標(biāo)準(zhǔn)目標(biāo)

部分內(nèi)容中含有令消費(fèi)者感到惡心不適的內(nèi)容,直接展示給用戶會(huì)嚴(yán)重影響觀感。其中嚴(yán)重的部分會(huì)引起大多數(shù)人的強(qiáng)烈反感,應(yīng)當(dāng)直接下架處理;惡心情節(jié)較輕的內(nèi)容,有部分用戶不敏感,部分厭惡,則可以限制其曝光范圍。本標(biāo)準(zhǔn)目標(biāo)是識(shí)別此類內(nèi)容,減少用戶感到惡心的機(jī)會(huì)。

2)標(biāo)準(zhǔn)條款

情節(jié)嚴(yán)重者,使大部分用戶會(huì)感到強(qiáng)烈不適,對(duì)未成年人有嚴(yán)重不良影響,應(yīng)當(dāng)做下架處理:

  1. 尸體:人體或動(dòng)物惡心的尸體特寫、人體或動(dòng)物不完整尸體、大面積血腥的尸體;
  2. 傷口:人體或動(dòng)物傷口的化膿感染的畫面,大面積創(chuàng)傷等極度血腥的畫面,解剖畫面,器官流出帶血畫面;
  3. 女性來(lái)姨媽漏出,帶血的衛(wèi)生巾。

情節(jié)較輕者,部分用戶感興趣,部分用戶不感興趣,應(yīng)限制其展示的范圍,如僅關(guān)注的用戶可以看到:

  1. 蠕蟲(chóng)、蛆、蚯蚓、黃鱔、寄生蟲(chóng)等無(wú)脊椎腔腸類動(dòng)物特寫場(chǎng)景;
  2. 蛇、蜈蚣、蟑螂等容易引起部分人恐懼的畫面;
  3. 密集場(chǎng)景,容易觸發(fā)密集恐懼癥的畫面;
  4. 痘痘、濕疹等密集出現(xiàn)或擠黑頭、擠痘痘的視頻;
  5. 耳屎、鼻屎等人體排泄物。

3)例外情況

  1. 游戲中爆頭不算真人,血腥面積低于四分之一的可以放行;
  2. 純醫(yī)學(xué)研究?jī)?nèi)容中含血腥傷口和解剖畫面可以關(guān)注可見(jiàn)。

(3)標(biāo)準(zhǔn)的執(zhí)行

定制完標(biāo)準(zhǔn)后必然要實(shí)際運(yùn)用起來(lái),但是如果運(yùn)用過(guò)程中不講究技巧,容易造成推進(jìn)困難導(dǎo)致標(biāo)準(zhǔn)被束之高閣,或者執(zhí)行不到位。落地的第一步是要讓新同學(xué)掌握新標(biāo)準(zhǔn)。

1)在檢驗(yàn)中執(zhí)行

握新標(biāo)準(zhǔn)需要經(jīng)歷如果1兩個(gè)步驟:

首先由制定者或者熟練掌握的同學(xué)對(duì)新同學(xué)進(jìn)行培訓(xùn),從文檔到新同學(xué)掌握需要一個(gè)轉(zhuǎn)化過(guò)程,面對(duì)面的培訓(xùn)可以提高轉(zhuǎn)化率。而且培訓(xùn)的過(guò)程中主講人還可以根據(jù)新同學(xué)的反饋適當(dāng)修改標(biāo)準(zhǔn)使之更容易理解。

培訓(xùn)完成后趁熱打鐵進(jìn)行“試標(biāo)注”以檢驗(yàn)培訓(xùn)成果。標(biāo)注的樣本要求有足夠多(經(jīng)驗(yàn)值是半個(gè)工作日能完成的工作,一般500條以上),而其足夠地均勻可以覆蓋多數(shù)場(chǎng)景,這樣檢驗(yàn)的結(jié)果才有可信度。

熟練掌握標(biāo)注的同學(xué)會(huì)整理一份“標(biāo)注答案”然后于新同學(xué)的結(jié)果對(duì)比,相同即為準(zhǔn)確。如果準(zhǔn)確率達(dá)標(biāo)則說(shuō)明新同學(xué)已經(jīng)熟練掌握,否則要進(jìn)入下一輪培訓(xùn),直到準(zhǔn)確率合格。考慮到標(biāo)準(zhǔn)結(jié)果的重要性,通常要求準(zhǔn)確率90%以上才算合格。

如何定性內(nèi)容?先有標(biāo)準(zhǔn)后有天,用算法的眼光看內(nèi)容

圖1標(biāo)準(zhǔn)培訓(xùn)流程

2)在執(zhí)行中檢驗(yàn)

機(jī)器分類的過(guò)程如圖2所示,從真實(shí)分類開(kāi)始經(jīng)歷了標(biāo)準(zhǔn)制定、樣本標(biāo)注、模型訓(xùn)練到實(shí)際應(yīng)用四個(gè)步驟,每個(gè)步驟的準(zhǔn)確度和召回率召回率都有損失。

在實(shí)際操作中由于進(jìn)文的變化會(huì)導(dǎo)致內(nèi)容結(jié)構(gòu)的變化,也就是真實(shí)分類變了,原本能覆蓋大部分內(nèi)容的標(biāo)準(zhǔn)會(huì)慢慢退化,最后與實(shí)際生產(chǎn)脫節(jié)。另外標(biāo)注同學(xué)的標(biāo)準(zhǔn)水準(zhǔn)也不是固定的,時(shí)常會(huì)忽高忽低有波動(dòng)。同理模型也會(huì)退化,識(shí)別效果會(huì)逐步變差。

如何定性內(nèi)容?先有標(biāo)準(zhǔn)后有天,用算法的眼光看內(nèi)容

圖2 真實(shí)分類與實(shí)際應(yīng)用準(zhǔn)確率的轉(zhuǎn)化漏斗

因此整個(gè)漏洞中所有的步驟都要定期更新以保障最后實(shí)踐的準(zhǔn)確率能夠維持在可用水平。特別是低俗低質(zhì)內(nèi)容和涉證敏感內(nèi)容中,經(jīng)常有新的變種出現(xiàn),會(huì)導(dǎo)致模型遺漏。如果不及時(shí)更新標(biāo)準(zhǔn)和模型會(huì)給平臺(tái)帶來(lái)巨大的風(fēng)險(xiǎn)。

那么什么時(shí)候更新呢?

我們可以持續(xù)抽查線上內(nèi)容的實(shí)際識(shí)別效果,如果低于某一閾值就需要及時(shí)更新漏斗中轉(zhuǎn)化率的步驟。

[召回率] Recall Ratio,篩選出準(zhǔn)確分類的內(nèi)容量占實(shí)際分類內(nèi)容量的占比。如總樣本中有20條體育內(nèi)容,但是實(shí)際被標(biāo)注出了10條,那召回率就只有50%。

 

本文由 @內(nèi)容黑客 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!