11 天前

HateXplain:面向可解释仇恨言论检测的基准数据集

Binny Mathew, Punyajoy Saha, Seid Muhie Yimam, Chris Biemann, Pawan Goyal, Animesh Mukherjee
HateXplain:面向可解释仇恨言论检测的基准数据集
摘要

仇恨言论是困扰在线社交媒体平台的一项严峻挑战。尽管针对仇恨言论检测的性能更优的模型不断被开发出来,但关于仇恨言论检测中偏差(bias)与可解释性(interpretability)方面的研究仍十分有限。本文提出了 HateXplain,这是首个涵盖仇恨言论问题多个维度的基准数据集。我们数据集中的每一条帖子均从三个不同视角进行标注:(1)基础且常用的三分类任务(即仇恨言论、冒犯性言论或正常内容);(2)目标群体(即帖子中遭受仇恨或冒犯性言论针对的社群);(3)推理依据(rationales),即标注决策(判定为仇恨、冒犯或正常)所依据的帖子具体语段。我们采用现有最先进的模型进行实验,发现即便某些模型在分类任务上表现优异,其在可解释性指标(如模型合理性与忠实性)上的得分却并不理想。此外,我们还观察到,那些在训练过程中引入人类提供的推理依据的模型,在降低对目标群体的无意偏见方面表现更优。我们已将代码与数据集公开发布于 https://github.com/punyajoy/HateXplain,以促进该领域研究的进一步发展。

HateXplain:面向可解释仇恨言论检测的基准数据集 | 最新论文 | HyperAI超神经