對(duì)于敏感詞過(guò)濾,我們只能選擇讓用戶“痛不欲生”嗎?
敏感詞過(guò)濾是隨著互聯(lián)網(wǎng)社區(qū)發(fā)展一起發(fā)展起來(lái)的一種阻止網(wǎng)絡(luò)犯罪和網(wǎng)絡(luò)暴力的技術(shù)手段,通過(guò)對(duì)可能存在犯罪或網(wǎng)絡(luò)暴力可能的關(guān)鍵詞進(jìn)行有針對(duì)性的篩查和屏蔽,很多時(shí)候我們能夠防患于未然,把后果嚴(yán)重的犯罪行為扼殺于萌芽之中。
隨著互聯(lián)網(wǎng)社區(qū)和UGC應(yīng)用的不斷發(fā)展變化,敏感詞過(guò)濾系統(tǒng)也經(jīng)歷了不斷的發(fā)展演進(jìn),有如下多種過(guò)濾方式:
一、敏感詞替換
敏感詞替換是較早出現(xiàn)的一種敏感詞過(guò)濾方式,即系統(tǒng)不會(huì)在用戶端進(jìn)行敏感詞過(guò)濾和校驗(yàn),而是把這個(gè)工作放在數(shù)據(jù)入庫(kù)之前完成,在數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)之前,系統(tǒng)根據(jù)已經(jīng)制定的規(guī)則把所有敏感詞替換為設(shè)定好的符號(hào)或文字,這個(gè)過(guò)程是不可逆的。
這種技術(shù)手段對(duì)于阻止網(wǎng)絡(luò)暴力成效顯著,用戶在閱讀其他人的發(fā)布信息時(shí),不會(huì)再看到那些刺眼的侮辱性的字眼,但又不會(huì)太過(guò)于破壞發(fā)布者的本意。同時(shí)也不會(huì)對(duì)用戶閱讀造成很大干擾和障礙,尤其是在聊天室或群組等場(chǎng)景中表現(xiàn)優(yōu)異。
但這種過(guò)濾方式仍然可能會(huì)對(duì)普通用戶造成“隱性騷擾”,因?yàn)槲覀兓究梢詰{借上下文來(lái)基本猜出那些被替換成“***”的本來(lái)面目。
二、敏感詞屏蔽
敏感詞屏蔽就是發(fā)布的信息里的敏感詞被直接去除,再寫(xiě)入數(shù)據(jù)庫(kù),這種方式能最大程度上避免對(duì)普通用戶的“隱性騷擾”,但隨之而來(lái)的代價(jià)就是可能會(huì)造成發(fā)布信息的可讀性下降,甚至影響到閱讀體驗(yàn)。
三、用戶端阻止發(fā)布
用戶端阻止發(fā)布是指系統(tǒng)在用戶發(fā)布信息時(shí),對(duì)信息進(jìn)行本地或服務(wù)器端敏感詞校驗(yàn),一旦發(fā)現(xiàn)用戶發(fā)布的信息有詞匯符合敏感詞過(guò)濾條件,即阻止用戶的發(fā)布操作并返回提示信息,提示用戶有敏感詞不符合發(fā)布要求,并要求用戶修改自己發(fā)布的信息。
這種過(guò)濾方式能夠最大程度上降低系統(tǒng)自身的安全風(fēng)險(xiǎn)并顯著降低人工審核的成本,在用戶輸入昵稱,輸入簡(jiǎn)單介紹時(shí)效果最佳。
四、系統(tǒng)人工審核
在UGC內(nèi)容不是特別多或搭配AI識(shí)別敏感詞的情況下,系統(tǒng)可以允許用戶首先發(fā)布自己的信息,再使用AI輔助方式找出存在敏感詞風(fēng)險(xiǎn)的發(fā)布信息,由人工進(jìn)行審核。符合條件或者被“誤傷”者放行,屬于惡意發(fā)布信息的則人工刪除并通知發(fā)布者。
這是一種對(duì)用戶體驗(yàn)傷害最小的,最人性化的敏感詞過(guò)濾方式,但隨之而來(lái)的可能也是冷人咋舌的人工成本。
五、“小黑屋”
系統(tǒng)允許用戶發(fā)布信息,但用戶發(fā)布后使用AI輔助方式找出存在敏感詞風(fēng)險(xiǎn)的發(fā)布信息并批量導(dǎo)入“小黑屋”,然后通知發(fā)布者進(jìn)行修改,一直到系統(tǒng)不再提示有敏感詞風(fēng)險(xiǎn)為止。
這種方式能夠保證用戶端發(fā)布時(shí)的體驗(yàn)的流暢性,但因?yàn)闆](méi)有人工審核參與,敏感詞風(fēng)險(xiǎn)通知的發(fā)送是異步的。用戶可能在發(fā)布后離開(kāi)應(yīng)用,過(guò)很長(zhǎng)時(shí)間返回后,發(fā)現(xiàn)發(fā)布的信息被關(guān)入“小黑屋”,還要自己主動(dòng)排查猜測(cè)屏蔽原因,這種挫折感和用戶體驗(yàn)問(wèn)題也是非常嚴(yán)重的。
六、僅發(fā)布者可見(jiàn)
有些UCG社區(qū)采用了這種敏感詞風(fēng)險(xiǎn)控制機(jī)制,命中了敏感詞的文章或信息,系統(tǒng)暗暗地把信息設(shè)置為僅發(fā)布者自己可見(jiàn),而發(fā)布者可能還為自己的信息沒(méi)有瀏覽和點(diǎn)擊而疑惑不解,這真是讓發(fā)布者“死得不明不白”。這種過(guò)濾機(jī)制真是非常奇葩,但它卻真實(shí)地存在很多應(yīng)用中。
綜上,敏感詞過(guò)濾是一種阻止網(wǎng)絡(luò)暴力和網(wǎng)絡(luò)犯罪的非常有效的手段,但有時(shí)候它也會(huì)因?yàn)槠潢P(guān)鍵詞而誤傷用戶,造成一些讓人啼笑皆非的問(wèn)題,比如下面這個(gè)流傳甚廣的段子:
半夜IDC急電,“你的網(wǎng)站有涉嫌的關(guān)鍵詞,請(qǐng)立即刪除!”站長(zhǎng)立即從被窩里爬起,冒著零下10度的嚴(yán)寒上網(wǎng),找那個(gè)違法關(guān)鍵詞。最后找到的是這樣一條信息:轉(zhuǎn)讓一臺(tái)獨(dú)立服務(wù)器。
在用戶發(fā)布比較大段的文字或文章時(shí),特別是一些UCG社區(qū)。例如美食評(píng)論、酒店居住體驗(yàn)、活動(dòng)體驗(yàn)、游記等等,龐大的敏感詞庫(kù)+過(guò)于苛刻的匹配規(guī)則+用戶端阻止發(fā)布就可能會(huì)誤傷到普通用戶,對(duì)普通用戶的使用體驗(yàn)造成嚴(yán)重傷害。
而且隨著各應(yīng)用的系統(tǒng)不斷改進(jìn)升級(jí)和擴(kuò)充自己的敏感詞庫(kù),惡意發(fā)布者的規(guī)避敏感詞過(guò)濾的手段也在不斷升級(jí)進(jìn)步,特別是在缺少人工審核的情況下,發(fā)布者很容易就可以通過(guò)某些技術(shù)手段,如加密、替換字符、諧音字、同義字來(lái)規(guī)避這種過(guò)濾。
這是一場(chǎng)沒(méi)有硝煙的戰(zhàn)爭(zhēng),這是一種無(wú)聲的軍備競(jìng)賽,系統(tǒng)和惡意發(fā)布者之間相互博弈,最后造成的結(jié)果就是——關(guān)鍵詞庫(kù)越來(lái)越龐大,龐大到已經(jīng)干擾到了普通用戶正常發(fā)布UGC內(nèi)容的程度了。
我有個(gè)朋友就是這種軍備競(jìng)賽的犧牲者,她在忍無(wú)可忍的情況下在朋友圈發(fā)布了這樣的動(dòng)態(tài):
她在口碑上想要發(fā)布自己的美食分享,但系統(tǒng)總是提示有敏感詞,但敏感詞是什么?系統(tǒng)卻又不告訴她,最后她憑著自己的不懈努力,終于發(fā)現(xiàn)是這個(gè)美食店的一款【法式禽獸漢堡】里的“禽獸”二字命中了敏感詞庫(kù),所以被阻止發(fā)布。
而我自己也曾經(jīng)多次在不同的UCG社區(qū)碰到過(guò)類(lèi)似問(wèn)題,特別是在移動(dòng)端,這種敏感詞過(guò)濾機(jī)制簡(jiǎn)直是“反人類(lèi)”的“劣幣驅(qū)逐良幣”過(guò)濾機(jī)制。
因?yàn)閮?yōu)質(zhì)用戶才會(huì)輸入較長(zhǎng)的文字信息,又因?yàn)槲淖中畔⒑荛L(zhǎng),導(dǎo)致命中敏感詞的風(fēng)險(xiǎn)急劇上升,而又因?yàn)槲淖中畔⒑荛L(zhǎng),導(dǎo)致排查敏感字非常困難。
查理芒格曾說(shuō)“如果你告訴我將會(huì)死在哪個(gè)地方,我以后就絕對(duì)不會(huì)去那兒”,但這些系統(tǒng)卻絕口不提我們會(huì)死在哪兒,讓我們沒(méi)有目標(biāo)地瞎轉(zhuǎn)亂撞。很多時(shí)候,精疲力盡的用戶會(huì)選擇放棄發(fā)布信息,甚至進(jìn)而影響它對(duì)整個(gè)應(yīng)用的使用體驗(yàn),從而放棄整個(gè)應(yīng)用。
我曾經(jīng)在一個(gè)書(shū)評(píng)應(yīng)用上發(fā)布一篇讀后感時(shí),被系統(tǒng)冰冷地提示“不符合發(fā)布要求”。為了找出那個(gè)該死的敏感詞,把所有的文字全選拷貝放到編輯軟件里,然后一段一段拷貝到書(shū)評(píng)應(yīng)用中。等我嘗試到第3段時(shí),系統(tǒng)冷冷地提示我:“您已保存提交太多次,請(qǐng)休息一會(huì)兒”,那一刻,我確定我是崩潰的。
所以,系統(tǒng)在設(shè)計(jì)敏感詞過(guò)濾體系的時(shí)候,肯定是要綜合考慮公司將會(huì)付出的成本和用戶體驗(yàn)。但如果單純?yōu)榱顺杀竞蛯徍说燃?jí)考慮,而把所有的風(fēng)險(xiǎn)和責(zé)任都推到用戶這一邊,我不認(rèn)為這是一種明智的做法。
作者:希楽堂
來(lái)源:https://www.jianshu.com/p/ba3883e9b7ff
本文由 @希楽堂 授權(quán)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)作者許可,禁止轉(zhuǎn)載
題圖來(lái)自Unsplash,基于CC0協(xié)議
口口聲聲喊著大力支持互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展,扶持文創(chuàng)企業(yè)。然后四處設(shè)障挖坑,讓你寸步難行,自生自滅。這就是這個(gè)時(shí)代的“偉大”之處。
若想留存用戶,不能讓用戶止步于第一關(guān)卡 – 敏感字過(guò)濾。
所以大廠都是人工審核
但還是沒(méi)有比較完美的解決辦法,越來(lái)越多社交軟件因此被下架。