16 天前
社交媒体中巴西葡萄牙语的有害语言检测:新数据集与多语言分析
João A. Leite, Diego F. Silva, Kalina Bontcheva, Carolina Scarton

摘要
仇恨言论和有毒评论是社交媒体平台用户普遍关注的问题。尽管这类评论在平台内容中仅占少数,但仍可能造成实质性伤害。因此,识别此类评论成为研究并遏制社交媒体中毒性内容蔓延的重要任务。以往针对有毒评论的自动检测研究主要集中于英语语料,而针对巴西葡萄牙语等其他语言的研究则极为有限。本文提出一个面向巴西葡萄牙语的大规模数据集,其中包含经过标注的推文,标注类别包括有毒、非有毒以及不同类型的毒性。我们详细介绍了数据收集与标注流程,并特别注重选取涵盖多个社会群体的样本,以提升数据的代表性。在二分类任务中,采用最先进的单语BERT模型在仅使用单语数据的情况下,取得了76%的宏平均F1分数。此外,我们的研究还表明,尽管多语言模型技术近年来取得显著进展,但构建更精准的模型仍需大规模的单语语料支持。通过错误分析及多标签分类实验,我们发现某些在数据中出现频率较低的有毒评论类型难以准确识别,凸显了开发能够区分不同类型毒性的模型的迫切需求。