一般社区论坛在发展初期,用户自发产生的内容不多,每一条数据都弥足珍贵,因此几乎不需要考虑反垃圾需求。随着产品规模的扩大,吸引了灰黑产的注意,伴随着各类垃圾广告信息随之而来。广告贴不仅影响用户体验,而且违法违规内容则甚至可以直接导致运营风险。因此,广告贴过滤对社区论坛的运营非常重要。
当遇到垃圾信息困扰时,常规采用的方法是文本添加关键词,进而人工审核,对于图像的检测基本就是纯人工了。以关键词为例,通常会遇到两难的选择:一、设置致命词(命中就删除)简单粗暴,背后牺牲的是用户体验。二、设置嫌疑词(命中后人工审核),将会带来风险与成本。人工审核时效性上不如机器,同时随着内容体量的增加,审核人力将持续投入。举个简单的例子,“口交”是出现在淫秽刊物中的常用词,常规的做法是把该词自动屏蔽或进入待审,但对于机器检测会存在“断章取义”的情况,导致当这类词汇出现在正常语境时就会产生匹配错误,例如“接口交接”、“24口交换机”。
有问题,自然就有至尊全讯大全官网的解决方案,这是反垃圾运营必须掌握的技能。而风险和成本是运营的工作核心。应对风险方面,在于对风险的深刻剖析与理解,做到举一反三,事先布控。例如,对于违法信息,运营需要有超高的敏锐度与尺度的把握。需要对法律法规有基本的了解,能将法律法规细化到可执行的客观标准。什么能发,什么不能发,能发到什么程度心中要有一杆尺。这里面度的把握关乎着风险与产品流量的平衡,这里就不再一一展开。同样,在广告问题上,运营遇到的挑战是样本的变种,以下截取冰山一角:
同音词:即相同拼音的不同汉字。最典型的例子就是兼职与蒹职。
象形词:字型相象的汉字组成。例如:兼(jian)职与慊(qian)职,字型相像,读音不同,同音词的至尊全讯大全官网的解决方案也无法适用。
拆字:利用汉字偏旁与部首的关系,拆开绕过。例如:兼耳只
干扰词:绕过一般的模糊匹配,在关键词中间添加干扰字符。例如:兼*——职
反垃圾做的好与坏就在于做的有多深有多广。最直接的体现就是变种样本需要尝试多少次才能绕过,而背后支撑的是对新型样本的最大化防控。
面对这种广告,网易易盾提供文本、图片、音频和视频四大类的基础服务,文档、音视频、在线检测、网站、广告合规等至尊全讯大全官网的解决方案,以及人工审核、舆情管家、智能审核系统等增益服务。易盾能够过滤包括鉴黄、涉政、暴恐、广告等数十大类近千小类的不良内容,使用场景包括新闻内容、聊天室、直播、视频、弹幕、评论、博客、短信/im、昵称/头像、签名等。