內(nèi)容審核基礎:審核方式、流程與審核維度

32 評論 56625 瀏覽 361 收藏 11 分鐘

對于資訊類產(chǎn)品和內(nèi)容內(nèi)產(chǎn)品來說,內(nèi)容審核是必不可少的環(huán)節(jié)之一。借助人工智能的發(fā)展,可以讓機器替代一部分審核工作,但由于內(nèi)容的復雜性,人工審核必不可少,而且還有其他需要考慮的點。這篇文章,作者為我們講解內(nèi)容審核的方式與流程,希望能對你有所幫助。

何為內(nèi)容審核?

簡單來說就是:對用戶在社交平臺上上傳、發(fā)布或共享的內(nèi)容(文字,圖片,音頻,視頻)進行審查。

其主要目的是對低質(zhì)庸俗的內(nèi)容進行過濾篩選,從而生產(chǎn)高質(zhì)量的內(nèi)容、防止降低用戶體驗、保持良好的內(nèi)容調(diào)性。

而在這個過程中,平臺會對于內(nèi)容有一個專業(yè)的標準作為參考,這個時候有一個很大的問題就是人工篩選效率低,而且成本大。

所以很多內(nèi)容平臺采用了算法進行過濾,通過人工和算法的有效結(jié)合來提升效率。

經(jīng)過過濾后的內(nèi)容基本上能保證無害,即使質(zhì)量不高,但也不存在風險問題。這時企業(yè)就會面對選擇是先發(fā)后審還是先審后發(fā):

  • “先發(fā)后審”:即用戶先發(fā)表UGC內(nèi)容,再經(jīng)過審核;
  • “先審后發(fā)”:即用戶提交UGC內(nèi)容后,先經(jīng)過審核,審核通過后才能發(fā)表上線。

“先發(fā)后審”和“先審后發(fā)”的適用場景:

  • “先發(fā)后審”:適用于對發(fā)表內(nèi)容時效性要求較高的場景,如閱讀、聽歌等場景下的用戶評論,此時用戶發(fā)表評論更多出于即興,因此從用戶的角度考慮,希望自己發(fā)表的評論能夠馬上看到成功、有效。比如:網(wǎng)易云音樂評論。
  • “先審后發(fā)”:適用于在社區(qū)、論壇、新聞平臺等場景下發(fā)表文章、觀點、討論等,此時對于平臺方來說需要對內(nèi)容負責、并構建權威性,因此通常要審核后才能發(fā)表。比如:抖音、人人都是產(chǎn)品經(jīng)理。

一、審核方式

不管是什么內(nèi)容的審核,都應該包含以下四個基礎模塊:機器審核、人工審核、用戶投訴審核、結(jié)果復審。

1. 機器審核

是按照制定好的規(guī)則或機器學習算法對內(nèi)容進行審核.

通常,成熟的審核系統(tǒng)能將95%甚至99%以上的內(nèi)容都自動審核并做出處理。確定有問題的會被自動刪除,難以判斷是否有問題的會被標注,進入人工審核程序。

2. 人工審核

雖然用戶投訴審核和結(jié)果復審大多時候也是人工審核,但這里所說的人工審核,特指審核機器無法判別的內(nèi)容,通常占平臺內(nèi)容數(shù)量的比例不超過5%.

但對于一些大型的內(nèi)容平臺,絕對數(shù)量已經(jīng)很多了。在內(nèi)容爆炸的時代,我們看到許多平臺在全國都有多個審核中心,每個審核中心的員工數(shù)量都成千甚至上萬。

3. 用戶投訴審核

是前兩者的彌補,有很多違規(guī)內(nèi)容以前沒有出現(xiàn)過;所以不在規(guī)則可以過濾的范圍內(nèi),或者非常隱蔽,規(guī)則難以嚴格過濾。

用戶的投訴是發(fā)現(xiàn)新問題的重要渠道。通過知乎的危機事件,我們更應該重視對投訴的審核,并及時據(jù)此對機器審核做出補充。

4. 結(jié)果復審

通常采取抽查方式,比如通過復審機器刪除的內(nèi)容,看規(guī)則或算法是否過于嚴格;比如通過查看人工刪除和通過的內(nèi)容,看員工的工作是否按要求執(zhí)行;比如通過內(nèi)容的整體巡查,看是否存在新的問題未被注意到。

二、審核流程

具體流程,以下圖為例:

  1. 先過機器審核,機器審核 通過 或 不通過;
  2. 對機器審核不通過的,再進行人工復審;
  3. 對機器審核通過的,再進行人工抽樣審核。

三、審核的四個維度

這里一般都是對四個維度進行審核,關鍵字審核,用戶發(fā)布次數(shù)限制,重復內(nèi)容過濾和白/黑名單用戶。

1. 關鍵詞審核

詞語過濾的環(huán)節(jié),關鍵詞主要分為三類:

1)禁止關鍵詞

只要匹配到這個詞,內(nèi)容就被自動刪除或禁止提交。通常只有極少數(shù)詞會被納入禁止關鍵詞,比如明確的色情、邪教以及廣告的專屬關鍵詞。

2)審核關鍵詞

這是最常見的關鍵詞種類,只要匹配到就會自動進入后臺進行審核,文章中的關鍵詞會被高亮并羅列出來,有助于審核人員快速判斷。審核關鍵詞也應該盡量是專屬關鍵詞,以防止太多內(nèi)容被攔截到后臺。

3)替換關鍵詞

在許多平臺,我們會在文中看到莫名的號或字母縮寫*,這可能不是文章作者寫的,而是這個詞被系統(tǒng)自動替換。平臺不希望出現(xiàn)這個關鍵詞,但用別的代替讀者通常也能讀懂。比如一些政治、宗教、不文明用語類詞語,都有可能被自動替換。

當然,管理員在添加關鍵詞時,很多時候并不是直接把關鍵詞添加到后臺。否則用戶用很簡單的方式就可以避過關鍵詞過濾,比如在關鍵詞內(nèi)加一個空格,系統(tǒng)就難以匹配到。

所以,一般后臺都會支持限定符{x} 以限定相鄰兩字符間可忽略的文字,x 是忽略的字節(jié)數(shù)。在Discuz!網(wǎng)站后臺有明確說明,如 “a{1}s{2}s”(不含引號) 可以過濾 “ass” 也可過濾 “axsxs” 和 “axsxxs” 等等。

對于中文字符,若使用 GBK、Big-5 版本,每個中文字符相當于 2 個字節(jié);若使用 UTF-8 版本,每個中文字符相當于 3 個字節(jié)。

另外,關鍵詞還可以支持正則表達式,來匹配具有一定模式的關鍵詞。比如”/1\d{10}([^\d]+|$)/”(不包括引號)用來匹配手機號碼。正則表達式的內(nèi)容過多,大家有興趣可以搜索學習一下。

2. 用戶發(fā)布次數(shù)限制

主要限制一名用戶無限制地發(fā)送評論。

對這種情況可以設置同一用戶一分鐘內(nèi)最多發(fā)送一條評論;一小時內(nèi)最多發(fā)送10條評論,一天最多發(fā)送三十條評論,評論次數(shù)如果超出時則彈出toast“發(fā)言太多累了吧,請休息下”的提示。

其實這個限制上線后,發(fā)現(xiàn)發(fā)廣告的人會不斷注冊新號來規(guī)避這個問題,后續(xù)可以考慮再加上。新用戶需注冊多長時間才可發(fā)布評論,或需綁定手機號才可以發(fā)布評論這些嚴格的條件。

3. 重復內(nèi)容過濾

這種一般都是對于發(fā)廣告的。

對比時去掉除漢字外的任何符號,如“抖丶音”、“快aabb手”,對比時用“抖音”“快手”;將評論與同一用戶上條評論作對比,10個漢字以上的若與其中一條重復率達70%(20,60%;30,50%)則彈出toast“請不要發(fā)布重復內(nèi)容”;同時將評論僅與評論庫最近發(fā)布50條的評論作對比,20個漢字以上的若與其中一條重復率達80%則機審失?。?0,70%;50,60%);

在對比重復內(nèi)容時一定要去掉一些無關的符號。因為很多小廣告喜歡加空格,逗號這些。他們也通常備用好幾條文案,可以將評論庫的拿出來對比;這樣也可以規(guī)避他們換號,換文案的問題。

4. 白名單用戶,黑名單用戶

白名單用戶、黑名單用戶需要有個可編輯的后臺,可隨時增減;若同一用戶一天內(nèi)機審失敗的評論超過10,則自動列入黑名單。

白名單的用戶不受發(fā)布次數(shù)限制,但內(nèi)容需要檢查廣告詞、敏感詞、屏蔽詞,如果一天內(nèi)發(fā)布的評論超過10條機審失敗,也自動列入黑名單。列在黑名單的用戶發(fā)布評論時,彈出toast“您暫時無法發(fā)布評論”或機審直接失敗。

最后補充下,其實沒有對IP進行限制是因為在公共區(qū)域的wifi好像IP是一樣的,盡管非常希望處理掉垃圾評論這一問題,但我還是希望在不影響到普通用戶的前提下。

以上基本是一個內(nèi)容審核都需要了解的點了。

 

本文由 @咩咩咩 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 審核

    來自上海 回復
  2. 審核需不需要保留審核記錄?

    來自福建 回復
    1. 當然需要

      回復
  3. 審核

    回復
    1. 1

      回復
  4. 后臺功能設計怎樣考慮減輕審核人員的負擔呢

    來自上海 回復
    1. 快捷鍵、任務流式推送、在加一些輔助識別關鍵詞什么的

      回復
  5. 為甚跟這一篇這么像,誰抄誰的?http://m.36881.com.cn/it/3844120.html

    來自上海 回復
  6. 試一下評論是否有審核

    來自廣東 回復
    1. 人人怕是先審后發(fā)吧

      來自四川 回復
    2. 看來結(jié)果是先發(fā)后審

      來自四川 回復
    3. 看來結(jié)果是先發(fā)后審大大大大大大

      來自四川 回復
  7. 好的

    回復
  8. 好想

    回復
  9. 試一下先審后發(fā)

    回復
  10. 寫的淺顯易懂,邏輯清晰

    來自廣東 回復
  11. 大佬方便留個微信嘛?

    來自廣東 回復
  12. 人工圖審 的任務分配可以指點一下嗎 謝謝

    來自北京 回復
  13. 請教一下樓主,如果一篇文章后臺人工審核通過了,是否還需要保留審核不通過的按鈕呢?就是這篇文章在后臺有審核通過和拒絕兩種操作,如果我操作審核通過了,那么審核拒絕這個按鈕后面還需要保留嗎?

    來自湖北 回復
    1. 通常狀況下是保留的 或者采用其他留置按鈕以備隨時下線

      回復
  14. 111

    來自北京 回復
  15. 感謝分享??吹轿恼掳l(fā)布有一段時間了,想請問一下作者,對于大量注冊新號以規(guī)避發(fā)布次數(shù)限制的現(xiàn)象(黑灰產(chǎn)賬號),現(xiàn)在有辦法解決嗎?

    來自北京 回復
    1. 這種就不能依托簡單的審核策略了,大量的注冊新號和發(fā)布黑灰產(chǎn)內(nèi)容是存在共性特征的,這部分如果用人審解決的話成本很高識別率也會低,一般大廠會專門的做對應的反作弊算法模型。

      來自北京 回復
  16. 現(xiàn)在好像還挺做內(nèi)容審核服務平臺誒,什么情況下自己做,什么情況下直接買服務好呢?

    來自廣東 回復
    1. 同問+1

      回復
    2. 1、在公司本身有內(nèi)容風控框架或內(nèi)容風控體系能人,滿足公司運營成本的情況下可以自己做。
      2、公司本身無內(nèi)容風控體系相關能力,短期僅為應急的情況下,可直接買服務,在使用服務的過程中逐步完善公司內(nèi)部內(nèi)容風控體系,說到底,內(nèi)容安全風控掌握在公司內(nèi)部的安全性比買服務要高很多很多

      來自四川 回復
  17. 贊一個

    回復
  18. 寫實操內(nèi)容的作者不多了,點個贊

    來自北京 回復
  19. 圖文審核的話感覺會更加復雜 ??

    來自上海 回復
    1. 還行,就是熟練度的問題,上手很容易

      來自北京 回復
    2. 圖片是怎么樣的審核?有對應的策略嗎?

      回復
    3. 要先確定內(nèi)容是否合規(guī)以及是否有版權風險,第二點的話可以接入相關API輔助檢測。

      來自上海 回復