敏感词监控过滤方法分享


[日期:2020-05-12 17:40]   来源:    阅读:

如果大家了解过广告法的话应该都知道,现在的企业广告宣传已经禁止使用极限用词了。从整个互联网的大方向来看,极限用词和敏感词都是需要重点监控的,下面我们就一起来了解一下,敏感词的过滤都有哪些方法。

敏感词监控过滤方法分享

1、Replace方法

敏感词过滤,其实在一定程度上是文本替换,以Python为例,我们可以通过replace来实现,先准备一个敏感词库,然后通过replace进行敏感词替换。

这种方法虽然操作简单,但是存在一个很大的问题:在文本和敏感词汇非常庞大的情况下,会出现很严重的性能问题。

2、正则表达方法

相较于replace,使用正则表达re.sub实现可能更加快速。

我们会发现当前两种方法的性能差距不是很大,但是随着文本数量的增加,正则表达的优势会逐渐凸显,性能提升明显。

3、DFA过滤敏感词

相对来说,DFA过滤敏感词的效率会更高一些。

4、AC自动机过滤敏感词算法

什么是AC自动机?简单来说,AC自动机就是字典树+kmp算法+失配指针,一个常见的例子就是给出n个单词,再给出一段包含m个字符的文章,让你找出有多少个单词在文章里出现过。

敏感词过滤是当前企业的普遍需求,通过敏感词过滤,我们可以在一定程度上遏制恶言恶语和违规言论的出现。在具体实现过程中,有两个方面需要额外主要:

敏感词库的获得问题:Github上有很多敏感词库,其中包含了各种场景中的敏感词,大家可以自行搜索下载使用;

API使用场景的问题:我们可以将这个API放置在社区跟帖系统、留言评论系统或者是博客发布系统中,这样可以防止出现敏感词汇,减少不必要的麻烦。

【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请在707945861群中学习了解。


友情链接: