互聯(lián)網(wǎng)廣告內(nèi)容審核專題(二)——機(jī)器審核

2 評(píng)論 13513 瀏覽 101 收藏 9 分鐘

導(dǎo)語(yǔ):在上一篇文章《審核業(yè)務(wù)機(jī)制基本認(rèn)知》中,作者為我們分析了審核維度主要分為準(zhǔn)入環(huán)節(jié)的客戶主體審核和推廣環(huán)節(jié)的內(nèi)容審核。在本篇文章中,作者將重點(diǎn)介紹推廣內(nèi)容的機(jī)器審核方式,不僅限于商業(yè)推廣的內(nèi)容,同樣適用于流量?jī)?nèi)容審核。

互聯(lián)網(wǎng)上每日發(fā)布海量?jī)?nèi)容,單單微博的評(píng)論日均可達(dá)億級(jí)以上。同時(shí),隨著時(shí)代發(fā)展,在傳統(tǒng)的圖文內(nèi)容以上,音視頻、直播、彈幕等內(nèi)容形式的興起,對(duì)于內(nèi)容審核的挑戰(zhàn)日益增大。

很明顯,在風(fēng)險(xiǎn)和用戶體驗(yàn)雙重重壓之下,僅依賴人工審核是不現(xiàn)實(shí)的,使用機(jī)器審核并初步過(guò)濾風(fēng)險(xiǎn)內(nèi)容才是最優(yōu)的選擇。

機(jī)器審核是什么?

簡(jiǎn)言之,機(jī)器審核是通過(guò)AI算法對(duì)劣質(zhì)內(nèi)容進(jìn)行識(shí)別、過(guò)濾的一種審核模式,通過(guò)提取海量數(shù)據(jù)樣本的特征,輸入機(jī)器學(xué)習(xí)形成的機(jī)器算法。

機(jī)器審核通常可以區(qū)分為機(jī)審規(guī)則和機(jī)審模型,機(jī)審規(guī)則是最簡(jiǎn)單的機(jī)器審核方式,僅支持識(shí)別文本類內(nèi)容。機(jī)審模型則能力更加強(qiáng)大,可支持文本、圖片、音視頻的審核,一起來(lái)看看機(jī)器審核是如何識(shí)別風(fēng)險(xiǎn)內(nèi)容的?

一、機(jī)審規(guī)則

機(jī)審規(guī)則即風(fēng)險(xiǎn)詞表,由海量的風(fēng)險(xiǎn)詞和匹配規(guī)則構(gòu)成,簡(jiǎn)單理解為根據(jù)匹配規(guī)則,識(shí)別待檢測(cè)文本中是否存在風(fēng)險(xiǎn)詞表中的詞,下面來(lái)具體說(shuō)說(shuō)匹配規(guī)則:

1. 場(chǎng)景1:針對(duì)單個(gè)風(fēng)險(xiǎn)詞的匹配規(guī)則

  • 精準(zhǔn)包含匹配:待檢測(cè)文本中精準(zhǔn)包含風(fēng)險(xiǎn)詞才能夠命中機(jī)審規(guī)則。如風(fēng)險(xiǎn)詞為【真人荷官】,待檢測(cè)文本中內(nèi)容為【真%人。荷/官】,詞中間加入了特殊符號(hào),即無(wú)法識(shí)別;
  • 強(qiáng)過(guò)濾匹配:能夠?qū)ⅲ?)中的特殊符合自動(dòng)過(guò)濾后進(jìn)行匹配,即將【真%人。荷/官】轉(zhuǎn)化為【真人荷官】,再進(jìn)行識(shí)別;
  • 拼音匹配:能夠?qū)ⅰ緕henrenheguan】、【真人heguan】轉(zhuǎn)化為【真人荷官】進(jìn)行識(shí)別;
  • 字母大小寫(xiě)轉(zhuǎn)換:如風(fēng)險(xiǎn)詞為【coco】,可以將【COCO】、【Coco】轉(zhuǎn)化為【coco】進(jìn)行識(shí)別。

2. 場(chǎng)景2:針對(duì)多個(gè)風(fēng)險(xiǎn)詞的匹配規(guī)則

  • 多模匹配:通過(guò)識(shí)別固定詞間距內(nèi)是否同時(shí)出現(xiàn)了多個(gè)風(fēng)險(xiǎn)詞(通常不超過(guò)3個(gè)),如同時(shí)出現(xiàn)即命中機(jī)審規(guī)則。舉例:如機(jī)審規(guī)則中,風(fēng)險(xiǎn)詞為【真人】和【荷官】,設(shè)置識(shí)別的固定詞間距為60字。當(dāng)待檢測(cè)文本中出現(xiàn)【真人XXXX荷官】,且兩個(gè)詞間距不超過(guò)60字時(shí),機(jī)審規(guī)則可以識(shí)別;
  • 置換匹配:對(duì)于多模匹配,需要按順序先出現(xiàn)【真人】,再出現(xiàn)【荷官】,才能識(shí)別;而置換匹配,可以將兩個(gè)詞倒序排布后識(shí)別,即可以識(shí)別【荷官XXXX真人】。

3. 場(chǎng)景3:豁免規(guī)則

為防止正常合規(guī)的詞語(yǔ)被誤殺,通常會(huì)人為添加豁免規(guī)則。

舉個(gè)例子:如機(jī)審規(guī)則中風(fēng)險(xiǎn)詞為【人流】,豁免規(guī)則為【人流量】。那么當(dāng)出現(xiàn)【人流量】時(shí),即會(huì)命中豁免規(guī)則,允許該詞語(yǔ)正常使用。

除了上述基本的匹配規(guī)則外,在商業(yè)推廣中通常還會(huì)增加【白名單機(jī)制】。白名單機(jī)制的出現(xiàn),是基于品牌保護(hù)的目的,即白名單內(nèi)的客戶或賬戶允許使用詞【coco】,其他客戶不允許使用,來(lái)保證品牌主體的正當(dāng)權(quán)益。

大家可能有疑問(wèn),海量的風(fēng)險(xiǎn)詞是怎么來(lái)的?如何判斷一個(gè)詞屬于低俗風(fēng)險(xiǎn)?

這些都是專業(yè)的審核人員或風(fēng)控規(guī)則運(yùn)營(yíng)人員基于工作經(jīng)驗(yàn)、審核case以及互聯(lián)網(wǎng)的海量數(shù)據(jù)進(jìn)行人工整理的。可想而知,工作量極大。

隨著機(jī)審能力的發(fā)展,目前也可以借助一些詞擴(kuò)展工具,通過(guò)一個(gè)基礎(chǔ)詞,基于繁體轉(zhuǎn)換、拼音轉(zhuǎn)換、同義轉(zhuǎn)化等邏輯,自動(dòng)擴(kuò)展出變體詞,輔助人工收集。

二、機(jī)審模型

機(jī)審模型能夠?qū)崿F(xiàn)對(duì)文本、圖片、音頻、視頻各種形態(tài)產(chǎn)品的識(shí)別,對(duì)于不同形態(tài)的產(chǎn)品如何識(shí)別呢?

1. 文本識(shí)別

相較于機(jī)審規(guī)則,模型能夠?qū)崿F(xiàn)的識(shí)別場(chǎng)景更多。通過(guò)語(yǔ)義分析構(gòu)建智能學(xué)習(xí)算法,結(jié)合場(chǎng)景對(duì)風(fēng)險(xiǎn)文本進(jìn)行識(shí)別。

以下面一段文本為例【韓國(guó)電影/迷人的保姆/男主經(jīng)不住漂亮保姆誘惑】,這段話拆開(kāi)每個(gè)詞都不涉及敏感問(wèn)題,但整體的場(chǎng)景描述下卻是低俗導(dǎo)向,不適宜發(fā)布。

對(duì)于這類情況,機(jī)審規(guī)則無(wú)法生效,只能靠模型來(lái)識(shí)別。通過(guò)樣本輸入和機(jī)器學(xué)習(xí),讓模型具備這類場(chǎng)景的識(shí)別能力。

2. 圖片識(shí)別

通常區(qū)分為圖片中的文字和圖像識(shí)別:

文字識(shí)別采用ocr識(shí)別技術(shù),即對(duì)圖片進(jìn)行掃描,將圖片中的文本輸出,再使用文本規(guī)則或模型進(jìn)行風(fēng)險(xiǎn)識(shí)別;圖像識(shí)別基于海量的圖片數(shù)據(jù),獲取圖片的信息并進(jìn)行預(yù)處理,比如去噪、平滑、變換等,然后抽取圖片特征進(jìn)行分類處理存儲(chǔ)至索引庫(kù),計(jì)算并存儲(chǔ)圖片的風(fēng)險(xiǎn)標(biāo)簽。

那在面對(duì)一張新圖片時(shí),索引庫(kù)中如有與之相似的特征,即可以進(jìn)行識(shí)別判斷。作者對(duì)于圖像識(shí)別研究并不深入,不作更多妄論。

3. 音頻識(shí)別

asr語(yǔ)音識(shí)別技術(shù),將音頻轉(zhuǎn)換為文字后進(jìn)行識(shí)別。

首先對(duì)音頻進(jìn)行預(yù)處理,提取音頻的特征。特征提取出來(lái)后,建立索引庫(kù)存放特征。在面對(duì)一段待識(shí)別的語(yǔ)音時(shí),將其與索引庫(kù)中特征進(jìn)行匹配,輸出識(shí)別的結(jié)果。

音頻識(shí)別與同為多媒體元素的圖片識(shí)別,基本的原理是一樣的,都是提取特征、建立索引庫(kù)存儲(chǔ)、特征匹配這三大過(guò)程。

4. 視頻識(shí)別

視頻審核目前主要以視頻切幀的方式,將視頻切成一張張的圖片,再按照?qǐng)D片識(shí)別的方式進(jìn)行審核。

三、總結(jié)

可以看到,相較于機(jī)審規(guī)則,模型的識(shí)別范圍更加廣泛,識(shí)別能力更加強(qiáng)大。但在實(shí)際機(jī)器審核中,通常是規(guī)則和模型組合拳的方式使用。

原因在于,模型的研發(fā)需要更加海量的數(shù)據(jù)和極細(xì)粒度的標(biāo)準(zhǔn),并經(jīng)過(guò)嚴(yán)格的線上測(cè)試,準(zhǔn)召率達(dá)標(biāo)后才能夠上線使用。而機(jī)審規(guī)則不需要研發(fā),通常配置即可生效,是一種實(shí)時(shí)服務(wù)。

對(duì)于緊急風(fēng)險(xiǎn)來(lái)說(shuō),最合適的辦法是使用機(jī)審規(guī)則應(yīng)急,同時(shí)進(jìn)行模型研發(fā),以最大程度降低風(fēng)險(xiǎn)影響。

當(dāng)然機(jī)器算法的識(shí)別能力也是有限的,除了準(zhǔn)召率的問(wèn)題外,對(duì)于某些場(chǎng)景幾乎不適用。

比如直播的審核,對(duì)時(shí)效性要求極高。如使用視頻切幀、音頻識(shí)別的方式,直播畫(huà)面結(jié)束還沒(méi)審核完成,遠(yuǎn)遠(yuǎn)達(dá)不到風(fēng)險(xiǎn)管控的目的。因此通常使用人工審核,盯在直播間前防止風(fēng)險(xiǎn)突發(fā)。

本篇文章的內(nèi)容就到這里,關(guān)于更多的審核模式、審核機(jī)制、審核業(yè)務(wù)管理方式等會(huì)在后續(xù)文章中繼續(xù)和大家分享!歡迎大家一起探討!

 

本文由 @聲生 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 機(jī)審

    回復(fù)
  2. 測(cè)試

    回復(fù)