B站是一个视频分享网站,由于其庞大的用户群体,管理的难度也随之增加。针对某些不良信息的产生,B站引入了自动化违禁词检测技术。本文将介绍B站违禁词检测的实现方式以及相关技术细节。
B站违禁词检测流程
B站违禁词检测的流程包括三个步骤:文本提取、违禁词匹配和结果输出。
在B站上,用户可以在评论、弹幕和视频标题、简介等处留下文字信息。B站通过爬虫技术将这些文本信息提取出来,并进行处理。
B站引入了多种算法对提取出来的文本信息进行违禁词匹配。以下是常用的算法:
(1)正则表达式:通过正则表达式匹配词库中的违禁词,适用于模式简单的情况。
(2)AC自动机:通过构建trie树,然后将trie树上的节点用链表组成后缀自动机,从而实现多模式串匹配,精度高,效率较高。
(3)双数组trie树:将trie树压缩成双数组,保存在两个数组中,查询时仅需比较这两个数组的值即可,比AC自动机更快。
(4)汉字树:将trie树应用到汉字级别,提高中文匹配的精度。
在处理好文本信息并匹配出违禁词后,B站需要将结果输出到管理平台。一般来说,输出的方式有两种:
(1)自动下架:若匹配到违禁词,则自动将该视频或评论下架,同时给用户发送通知。
(2)人工审核:若匹配到违禁词,则将该视频或评论标记为待审核,等待管理员进一步审核。如果审核通过,则将其发布或上架;如果审核未通过,则
上一篇:b站审核说有广告内容
下一篇:b站虚拟数字人账号