搭建內(nèi)容管理系統(tǒng)CMS(2):內(nèi)容過濾如何借助他方之力?
上一篇文章,分享了內(nèi)容管理系統(tǒng)CMS在內(nèi)容生產(chǎn)環(huán)節(jié)的產(chǎn)品思考與設(shè)計。今天來和大家聊聊內(nèi)容管理系統(tǒng)CMS中,關(guān)于內(nèi)容過濾的思考與總結(jié)。
內(nèi)容的過濾
遵守國家法律法規(guī)、使平臺免受違規(guī)內(nèi)容的影響,很好地規(guī)避平臺運(yùn)營風(fēng)險;維護(hù)內(nèi)容社區(qū)健康,使用戶免受垃圾內(nèi)容的困擾,最大地保障用戶消費(fèi)體驗。
這些都需要建立在對內(nèi)容進(jìn)行有效過濾的基礎(chǔ)上。而過濾的工作量是巨大的,尤其當(dāng)用戶量和內(nèi)容社區(qū)的氛圍都做起來之后,就更是難以想象的。純靠人工來完成是不可行、不準(zhǔn)確和效率極低的,必須采用機(jī)器和系統(tǒng)檢測,而機(jī)器學(xué)習(xí)和系統(tǒng)搭建是需要時間周期的,實現(xiàn)難度也是很大很大的。
一個內(nèi)容社區(qū)可能同時會有好幾個不同類型的內(nèi)容,比如:文本、圖片、視頻、音頻等。內(nèi)容的類型不同,過濾所使用的技術(shù)手段也是不同。
如果所處的是一個創(chuàng)業(yè)團(tuán)隊,所做的是一個試驗性產(chǎn)品,那在搭建CMS系統(tǒng)的過程中,同步來搭建這個內(nèi)容過濾系統(tǒng)是不可能的,也是不明智的。
現(xiàn)在市場上,針對各種各樣類型的內(nèi)容,都已經(jīng)有很多成熟的saas平臺,提供優(yōu)質(zhì)的內(nèi)容過濾服務(wù),而且部署對接起來也很是方便。
有一些大的平臺,因為業(yè)務(wù)的成熟度和數(shù)據(jù)的安全性,以及資源和技術(shù)的實力,自研了內(nèi)容過濾系統(tǒng),現(xiàn)在很多也投入商用了,比如:騰訊、阿里、百度、網(wǎng)易。
1.1 選擇saas服務(wù)的參考點
Sue因為工作和學(xué)習(xí)的原因,調(diào)研過一些內(nèi)容過濾的saas平臺,對于如何選擇有自己一點不成熟的總結(jié),可以跟大家分享一下:
- 根據(jù)主要的內(nèi)容類型來做選擇,大平臺不一定一好百好;
- 結(jié)合產(chǎn)品階段、用戶量級,對比分析服務(wù)的計費(fèi)方式;
- 在滿足需求的情況下,充分考慮性價比;
- 別在一棵樹上吊死,不同階段和量級,切換的不只是不同套餐,完全可以考慮換一家合作(可能更劃算)。
1.2 saas服務(wù)的對接
如果接入第三方服務(wù),利用第三方的技術(shù)方案完成內(nèi)容過濾,那就只需要根據(jù)第三方返回的過濾結(jié)果,對內(nèi)容進(jìn)行不同的處理即可。
通常,第三方的過濾系統(tǒng)會返回以下幾個信息:
1)判斷依據(jù)
- 違規(guī)的文本段落、圖片、音頻和視頻片段;
- 這是人工質(zhì)檢系統(tǒng)準(zhǔn)確性、也是和內(nèi)容發(fā)布者反饋違規(guī)內(nèi)容的憑據(jù)。
2)風(fēng)險描述
針對違規(guī)內(nèi)容的類型描述,比如:
- 文本:廣告文本、涉黃文本、暴恐文本、涉政文本、辱罵文本、灌水文本等等;
- 圖片:涉黃圖片、涉政圖片、暴恐圖片、違禁圖片、廣告圖片等等;
- 音頻(直播/點播):涉黃語音、違規(guī)語音、推廣語音等等;
- 視頻(直播/點播):涉黃視頻、涉政視頻、暴恐視頻、違禁視頻、廣告視頻等等。
3)過濾結(jié)果
內(nèi)容過濾的判斷結(jié)果和內(nèi)容違規(guī)的等級鑒定,一般分為三類:安全、可疑、危險。
而我們需要做的就是,依據(jù)過濾結(jié)果來處理內(nèi)容,也就是定義內(nèi)容發(fā)布是否生效、內(nèi)容的顯示狀態(tài)是前端展示還是屏蔽不展示等等。
發(fā)布的內(nèi)容對于生產(chǎn)者來說,屬于他在平臺上的信息財富。我們需要給予充分的尊重,一旦我們要對其發(fā)布的內(nèi)容進(jìn)行刪除/屏蔽等處理,那我們就需要負(fù)責(zé)任地通知到生產(chǎn)者,清楚告知原因,和提供對方溝通聯(lián)系的方式,甚至提供申訴通道。
出于對內(nèi)容生產(chǎn)者(尤其用戶)的積極性保護(hù),我們需要對過濾系統(tǒng)的準(zhǔn)確性有較高的要求。而這種內(nèi)容過濾的saas服務(wù),面向的用戶是各行各業(yè)、各種各樣的產(chǎn)品,往往可能存在針對性不高、或者標(biāo)準(zhǔn)過嚴(yán)的情況,所以在剛完成接入后的一段時間內(nèi),需要投入一部分精力來幫這個系統(tǒng)和我們產(chǎn)品的磨合。
可以分為兩個階段來處理:
處于磨合階段時:
Sue的建議方案是:根據(jù)過濾系統(tǒng)反饋的過濾結(jié)果“安全、危險、可疑”,分別對內(nèi)容的;
狀態(tài)進(jìn)行如下調(diào)整:安全——展示內(nèi)容、危險——屏蔽內(nèi)容,而“可疑”的內(nèi)容在磨合階段。
可以有兩種處理方式的:
- 判斷可疑——屏蔽內(nèi)容(通知用戶)——人工檢查——確認(rèn)過嚴(yán)——恢復(fù)內(nèi)容
- 判斷可疑——人工檢查——確認(rèn)過松——屏蔽內(nèi)容(通知用戶)
Sue認(rèn)為應(yīng)該選擇第(2)方式的,由人工完成二次確認(rèn)的審核,不應(yīng)該直接根據(jù)過濾結(jié)果就做出屏蔽內(nèi)容的處理。這種做法,既不會傳遞產(chǎn)品過濾內(nèi)容不嚴(yán)謹(jǐn)?shù)膯栴},也不會因為判斷不準(zhǔn)確而給用戶造成煩擾,還能加快系統(tǒng)和產(chǎn)品的磨合。唯一的缺點,就是需要耗費(fèi)部分人力,但Sue認(rèn)為在這個時間周期內(nèi)是值得的。
Sue之前所在的一個內(nèi)容社區(qū)項目中,就有接入一家內(nèi)容過濾的saas服務(wù),主要過濾的內(nèi)容類型是文本。而我們的內(nèi)容社區(qū)中,用戶討論的話題可謂是上天下地、縱橫古今呀。
從Sue在后臺的截圖也可以看出來,用戶討論“電影、密碼”,就被判斷為“危險”了,如果按我們定義的處理方式:“危險——屏蔽內(nèi)容”,那用戶就會被深深”傷害“到了,感覺言論不自由,聊聊電影都被限制。類似的,還有我們的用戶在文學(xué)板塊聊”魯迅”或“周樹人”也曾被限制過。
不能讓我們珍貴的用戶,成為我們的調(diào)試過濾系統(tǒng)準(zhǔn)確性的犧牲品呀,如果真要拿用戶當(dāng)“小白鼠”,那麻煩偷著偷著來,別把小白鼠嚇跑了(哈哈哈)。
在磨合階段將“危險內(nèi)容”默認(rèn)處理為屏蔽,是要建立在早期對所要接入saas服務(wù)的充分調(diào)研上,也是為了讓有限的人力更多更好地集中關(guān)注“可疑內(nèi)容”,但不代表可以完全放心(哈哈哈,還是剛剛“電影”的那個例子)
所以在磨合階段,過濾的標(biāo)準(zhǔn)可以相對嚴(yán)格一點。對“可疑內(nèi)容”,做人工審核; 對“危險內(nèi)容”,做人工質(zhì)檢。期間要保持和saas平臺相關(guān)人員的溝通聯(lián)系,針對性調(diào)整適合自己產(chǎn)品的內(nèi)容過濾標(biāo)準(zhǔn)。
度過磨合階段后:
通常,saas平臺會對他們的過濾系統(tǒng)有一套關(guān)于準(zhǔn)確性的評估分析標(biāo)準(zhǔn)。我們參考評估分析的結(jié)果,也可以自己定義一個基本的評估標(biāo)準(zhǔn),比如在磨合階段中,機(jī)器判斷“可疑”而人工審核“危險”的比例已經(jīng)優(yōu)化到60%(數(shù)值是假設(shè)的),機(jī)器判斷“危險”的質(zhì)檢準(zhǔn)確性也是符合我們期望的了,那就可以算是順利地過渡完磨合階段了。
在這之后,我們可以把“可疑內(nèi)容”的處理方案調(diào)整為和“危險內(nèi)容”一樣,也是默認(rèn)屏蔽,進(jìn)一步釋放所投入的人力,之后保持對“可疑內(nèi)容”和“危險內(nèi)容”的人工質(zhì)檢即可。
1.3 容易忽略的中間狀態(tài)
這里需要考慮一個問題,第三方服務(wù)的響應(yīng)雖說都是毫秒級別的。但真正在投入使用后,你會發(fā)現(xiàn)除了反饋內(nèi)容過濾的結(jié)果和狀態(tài)外,還會有一個“待過濾”/“待處理”的狀態(tài)。
這屬于中間狀態(tài),往往可能會忽略或不重視中間狀態(tài)下對內(nèi)容的處理,隨時會帶來前端用戶使用上的不明確和不好的體驗感受。
Sue總結(jié)了一下,前端后臺針對這種情況,可以有三種處理方式:
1)假象成功
過濾系統(tǒng)沒有返回一個明確的過濾結(jié)果(明確安全/明確危險)時,為不影響用戶的體驗和保護(hù)用戶創(chuàng)作積極性,都會制造一個發(fā)布成功的假象。
這個假象的現(xiàn)象是:用戶在前端成功提交發(fā)布后,默認(rèn)進(jìn)入內(nèi)容廣場頁面(如朋友圈),同時在列表第一條可以看到自己剛剛發(fā)布的內(nèi)容。但這時候內(nèi)容可能處于待審核或可疑待人工二次確認(rèn)審核的狀態(tài)中,其他人是暫時看不到這條內(nèi)容的,而發(fā)布者是毫無察覺的,他以為其他人和他一樣也能在廣場(朋友圈)看到。
這種方式,把過濾系統(tǒng)對發(fā)布者的影響控制在最小的程度。如果不是內(nèi)容被過濾系統(tǒng)判定為有問題,平臺對內(nèi)容進(jìn)行屏蔽處理時通知發(fā)布者,他們可能都不知道原來內(nèi)容還會被過濾審核。有的平臺在“和諧”掉內(nèi)容時并不會通知發(fā)布者,那就更難感知到了。
采取該方案的產(chǎn)品:微信。
2)等待結(jié)果
這種方式和第一種方式的頁面流程比較相似,同樣是在用戶成功提交后,將用戶帶到內(nèi)容廣場頁,但也會在頁面內(nèi)提示發(fā)布的進(jìn)度情況(進(jìn)度條的形式“soul”)或在內(nèi)容下方提示“審核中”(文字提示的形式“探探”)。相同的是,中間狀態(tài)的內(nèi)容對他人都暫時不展示;不同的是,有沒有讓發(fā)布者感知到過濾系統(tǒng)的存在。
這種方式,發(fā)布者會明確地知道內(nèi)容在提交后都需要被審核的,也會自覺地在編輯時就盡可能規(guī)范自己的言論。
采取該方案的產(chǎn)品:探探。
3)過濾后置
第三種方式,就是中間狀態(tài)的內(nèi)容等同于暫時安全的內(nèi)容,默認(rèn)對所有人都是直接先展示出來的,內(nèi)容過濾是后置的,過濾結(jié)果出來了,該怎么處理就怎么處理。
這種方式是最大程度地保障了發(fā)布者的體驗了,但對消費(fèi)內(nèi)容的用戶體驗可能會造成一些影響,也可能對平臺運(yùn)營帶來一定的風(fēng)險。
在體驗了很多產(chǎn)品的內(nèi)容發(fā)布流程后,會發(fā)現(xiàn)絕大多數(shù)產(chǎn)品好像都是采用了這種方式。(可能就真的是因為內(nèi)容過濾的響應(yīng)速度足夠快)
采取該方案的產(chǎn)品:綠洲。
1.4 黑白名單管理
第三方的過濾系統(tǒng),一般會支持以下幾個名單/庫的管理:
- 用戶名單
- IP名單
- 設(shè)備名單
- URL名單
- 聯(lián)系方式庫
主要的意義是:降低特定對象(用戶、IP、設(shè)備)或特殊內(nèi)容(URL、聯(lián)系方式)的誤殺。
例如:
- 內(nèi)容運(yùn)營的賬號可能會有短時間大量發(fā)布內(nèi)容的動作,如果沒有這些名單管理,則可能會被判定為短時間大量發(fā)貼的灌水行為(對設(shè)備/IP的情況也是類似的)。
- 發(fā)布的內(nèi)容可能會附帶上有運(yùn)營推廣宣傳的URL,或讓用戶聯(lián)系客服、工作人員而留的聯(lián)系方式,如果沒有這些名單管理,則可能被判定為廣告內(nèi)容和廣告用戶。
另外,我們可以在第三方過濾系統(tǒng)之外,建立自己的黑名單管理,將有問題的用戶、IP、設(shè)備、URL和聯(lián)系方式進(jìn)行標(biāo)記。
用戶發(fā)布的內(nèi)容,若被檢測出屬于符合黑名單中的標(biāo)記,則無需再推送到第三方過濾系統(tǒng)進(jìn)行判斷,直接則可進(jìn)行處理。
主要的意義是:減免特定對象(用戶、IP、設(shè)備)和內(nèi)容(URL、聯(lián)系方式)的重復(fù)過濾,減少不必要的過濾成本。
以上,就是Sue對于內(nèi)容管理系統(tǒng)CMS在內(nèi)容過濾環(huán)節(jié)的總結(jié)與分享。
下期更文預(yù)告:搭建內(nèi)容管理系統(tǒng)CMS(3)——內(nèi)容呈現(xiàn)的模板化
分享個人一些小小的思考與想法,使自己保持輸入轉(zhuǎn)化、總結(jié)輸出的學(xué)習(xí)習(xí)慣。如有不成熟、不正確的地方,希望有小伙伴指點賜教、歡迎討論,共同進(jìn)步。
本文由 @素小白 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash,基于 CC0 協(xié)議
贊