摘要
用户生成的网络内容中充斥着大量具有攻击性的语言,可能对他人造成伤害,并抑制社区参与。因此,一项核心研究目标是开发能够提醒并支持在线社区人工审核员的滥用语言检测系统。然而,此类系统的开发与评估极为困难。即便在现有评估指标下表现令人满意,这些系统在面对新数据时仍可能失效。这在一定程度上是因为该领域常用的数据集普遍存在选择偏差,导致现有的监督学习模型过度依赖诸如群体标识词(如“同性恋”“黑人”)等线索词,而这些词汇本身并不具备攻击性。尽管已有研究尝试缓解此类偏差,但当前的评估指标尚不足以准确衡量其进展。为此,本文提出一种名为“针对滥用语言的对抗攻击”(Adversarial Attacks against Abuse, AAA)的新评估策略及其配套指标,能够更准确地衡量模型在某些难以分类的短文本(microposts)上的表现,例如惩罚那些过度依赖低层级词汇特征的系统。该方法通过对抗性地修改模型开发者的训练与测试数据,动态生成具有合理性的测试样本,从而更真实地反映模型的鲁棒性。我们已将AAA实现为一个易于使用的工具,并通过在多个数据集上对比多个前沿模型的AAA表现,展示了其在错误分析中的有效性。本研究将为滥用语言检测系统的开发提供重要指导,助力在线环境中对抗有害语言的斗争。