內(nèi)容消費(fèi)-如何進(jìn)行敏感詞屏蔽

39 評(píng)論 57065 瀏覽 126 收藏 9 分鐘

最近對(duì)直播比較感興趣,被問(wèn)到一個(gè)問(wèn)題——如何屏蔽彈幕中的不良內(nèi)容?于是便有了如下的學(xué)習(xí)內(nèi)容。

一、什么是敏感詞匯?

1.分類

敏感詞可大致分為以下幾類:政治相關(guān)和人名、迷信邪教、黃賭毒、槍支彈藥類、罵人諷刺類、時(shí)事類、廣告和非法信息、其他類。

網(wǎng)上有很多專門的敏感詞庫(kù),我在網(wǎng)盤里上傳了一份名為百度內(nèi)部的敏感詞文件,僅供查看https://pan.baidu.com/s/1o8xtX1K。

2.常出沒(méi)的地方

所有傳播的信息都需要。發(fā)送這些垃圾信息的人或者團(tuán)隊(duì)被稱為“垃圾蟲(chóng)”。

敏感詞不僅出現(xiàn)在社區(qū)論壇、IM聊天、影音娛樂(lè)等內(nèi)部的評(píng)論或上傳信息區(qū)域,還隱藏在頭像、昵稱和簽名這種地方,需要全面鑒別。

3.哪些地方需要屏蔽?

平常我們主要做的屏蔽是廣告過(guò)濾、黃賭毒、暴力恐怖、謠言排查等幾種。不同的場(chǎng)合屏蔽的級(jí)別不同,而且基于傳播時(shí)效性的不同,屏蔽方式分為同步過(guò)濾和異步召回。

比如微博的屏蔽就需要做到基礎(chǔ)和全面,甚至一些時(shí)事熱點(diǎn)也要納入屏蔽范圍。

再比如B站,為了保持彈幕的質(zhì)量,它還需要屏蔽一些刷屏的、內(nèi)容尷尬的彈幕,這些彈幕的內(nèi)容不算敏感,只是讓人不喜歡。B站在彈幕方面算是鼻祖,做到了極致——用戶可以根據(jù)顏色、字體大小、展示方式甚至自定義的文本來(lái)進(jìn)行屏蔽,同時(shí),在視頻右邊還有專門的彈幕欄,也就是說(shuō),我可以彈幕內(nèi)容當(dāng)做評(píng)論一條條地看而不受其干擾。如圖所示:

屏幕快照 2016-10-18 21.28.45

二、目前有哪些手段可以進(jìn)行屏蔽?

綜合說(shuō)來(lái),技術(shù)屏蔽手段主要通過(guò)特征庫(kù)、語(yǔ)義分析、機(jī)器學(xué)習(xí)等方法來(lái)展開(kāi)。網(wǎng)易易盾上是分三類來(lái)寫的:垃圾發(fā)現(xiàn)、垃圾識(shí)別、垃圾處理,有點(diǎn)表意不明,所以下面具體來(lái)介紹一下。(以下綜合易盾和joylnwang的博客整理而成。)

1.垃圾發(fā)現(xiàn)——針對(duì)新垃圾

①用戶舉報(bào):主要是指用戶在使用產(chǎn)品過(guò)程中遇到不良信息,于是進(jìn)行投訴。

為了保證投訴的效果,我們需要在舉報(bào)的便捷性、顯眼展示和獎(jiǎng)勵(lì)機(jī)制上花一些功夫去做,同時(shí)還需要建立科學(xué)的舉報(bào)分類,不僅方便用戶選擇,還能極大地幫助反垃圾訓(xùn)練特征樣本,綜合來(lái)做才能有更好的效果。

②內(nèi)容聚合:主要是通過(guò)判斷內(nèi)容的相似性,從而確定是否為垃圾信息。

就文本來(lái)說(shuō),其相似度分為兩個(gè)層面,第一是基于編輯距離的文本相似度計(jì)算,這種算法是根據(jù)一段文字如何經(jīng)過(guò)增刪、移動(dòng)而轉(zhuǎn)化為另一段文字的操作步數(shù),來(lái)計(jì)算兩段文字的相似程度,運(yùn)算的時(shí)間和空間復(fù)雜度都很高,對(duì)于評(píng)論,標(biāo)題這樣的短文本往往能獲得不錯(cuò)的效果,缺點(diǎn)是對(duì)長(zhǎng)文本不太適用,且沒(méi)有考慮文本中意群的重要性。

第二是需要在原始文本中切分出有意義的Term,然后對(duì)于兩篇文章的Term集合,運(yùn)算得出文本的相似程度。復(fù)雜性上要高于前者,但在處理長(zhǎng)文本的方面有優(yōu)勢(shì),而且更有可能從意義的角度識(shí)別出相似的文本族(來(lái)源于http://blog.csdn.net/joylnwang/article/details/6831565)。

蜜罐系統(tǒng):主要是針對(duì)專業(yè)的垃圾蟲(chóng)團(tuán)體。

通常垃圾蟲(chóng)都有特定的工具協(xié)助,而這些工具大多會(huì)分析頁(yè)面元素并進(jìn)行調(diào)用。如果在頁(yè)面中埋伏一些“蜜罐”,正常的用戶無(wú)法看到這些入口,但是程序會(huì)直接調(diào)用這些入口進(jìn)行垃圾信息發(fā)送。比如某一些隱藏的評(píng)論主題,只有程序才會(huì)去抓取這些主題并對(duì)它們發(fā)送垃圾信息。那么進(jìn)了這些“蜜罐”里的人,都可以被判斷為非正常的用戶。

2.垃圾識(shí)別

①特征匹配:主要是基于已有垃圾特征進(jìn)行匹配。

對(duì)文本來(lái)說(shuō),建立敏感詞庫(kù)就可以直接屏蔽相關(guān)詞句,同時(shí),對(duì)于文字的變種比如簡(jiǎn)轉(zhuǎn)繁、加空格、形近字、音近字,都可以有效識(shí)別。

對(duì)圖片來(lái)說(shuō),主要是MD5,魯棒哈希,Sift特征識(shí)別等手段。對(duì)于音頻和視頻也支持MD5匹配。(原諒我實(shí)在不能理清后面幾種手段的具體技術(shù)實(shí)現(xiàn),不能展開(kāi)講,有興趣的可以百度。)總之,這幾種手段可以支持人像識(shí)別、動(dòng)漫識(shí)別、相似匹配、圖片旋轉(zhuǎn)裁剪、改變亮度色調(diào)、水印識(shí)別等,基本囊括了所有的不良圖片。

②模型匹配:主要是基于機(jī)器學(xué)習(xí),可以在沒(méi)有具體特征樣本庫(kù)的情況下識(shí)別內(nèi)容的分類。

音頻文件也通過(guò)大量語(yǔ)料學(xué)習(xí)能把語(yǔ)音轉(zhuǎn)換成文本,然后進(jìn)入文本匹配過(guò)程。視頻則通過(guò)截圖的方式轉(zhuǎn)換成為圖片識(shí)別。

③規(guī)則匹配:即模式匹配,分為正則表達(dá)式、多模式匹配算法、基于元數(shù)據(jù)的定制等。

百度給的定義是:模式匹配是數(shù)據(jù)結(jié)構(gòu)中字符串的一種基本運(yùn)算,給定一個(gè)子串,要求在某個(gè)字符串中找出與該子串相同的所有子串。比如自定義規(guī)則:同IP下5分鐘內(nèi)發(fā)送內(nèi)容相似度超80%的封禁1小時(shí)。

3.垃圾處理

①基礎(chǔ)處理:刪除內(nèi)容,封禁內(nèi)容,封禁用戶,刪除用戶,封禁IP,封禁設(shè)備等常規(guī)手段

②隱蔽操作:普通的屏蔽操作容易被垃圾蟲(chóng)感知,當(dāng)他們發(fā)現(xiàn)被屏蔽時(shí),會(huì)想辦法來(lái)“破解”反垃圾。故需要進(jìn)行隱蔽,比較常見(jiàn)的做法有:垃圾發(fā)送接口返回成功,但實(shí)際僅用戶自己可見(jiàn)。

比如直播中的彈幕,進(jìn)行虛擬展示,僅用戶自己可見(jiàn),其他人都看不到。

③后續(xù)操作:每天把刪除的垃圾內(nèi)容匯總到內(nèi)部分揀平臺(tái),由專業(yè)人員進(jìn)行分析和對(duì)數(shù)據(jù)的分揀標(biāo)記,完成各種模型以及規(guī)則的升級(jí)。

4.介紹一種常用常見(jiàn)的屏蔽工具——Adblock

Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome瀏覽器所使用的擴(kuò)展。

Adblock允許用戶攔截廣告在內(nèi)的各種頁(yè)面元素,并使這些內(nèi)容不被下載和顯示。右鍵單擊一個(gè)條幅廣告,在上下文菜單中選擇“Adblock”,它就再也不會(huì)被載入了;或者在側(cè)欄打開(kāi) Adblock Plus 查看頁(yè)面的所有元素,然后選擇阻止條幅廣告。您可以在過(guò)濾器中使用通配符或正則表達(dá)式來(lái)阻擋所有廣告。

以上內(nèi)容可解決大部分的敏感內(nèi)容屏蔽問(wèn)題,如有疑議,請(qǐng)?jiān)谠u(píng)論區(qū)回復(fù),歡迎一起探討~

 

本文由 @小喬(微信公眾號(hào):蕎麥長(zhǎng)長(zhǎng)) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 求一份敏感詞庫(kù),liziw950905@gmail.com。拜托啦,謝謝作者

    來(lái)自廣東 回復(fù)
  2. 社交軟件的文字、圖片、語(yǔ)音敏感詞過(guò)濾,有什么推薦的第三方嗎,或者有開(kāi)源免費(fèi)的嗎

    來(lái)自廣東 回復(fù)
  3. 求一份敏感詞庫(kù),jylzf0313@163.com

    來(lái)自廣東 回復(fù)