7 个月前

摘要

近年来，为管控网络内容并清除滥用、冒犯性或仇恨言论，各类系统相继被开发出来。然而，权力掌握者有时会滥用此类审查手段，妨碍民主社会中言论自由的基本权利。因此，亟需开展研究，采用正向强化的方法，关注那些具有鼓励性、积极向上及支持性的网络内容。迄今为止，大多数相关研究主要集中于英语语境下负面内容的识别与处理，但该问题远不止于有害内容本身，更具有显著的多语言特征。为此，我们构建了一个名为“希望言论数据集：平等、多元与包容”（HopeEDI）的多语言数据集，其中包含来自社交媒体平台YouTube的用户生成评论，分别涵盖英语、泰米尔语和马拉雅拉姆语，数量分别为28,451条、20,198条和10,705条，并由人工标注为“包含希望言论”或“不包含希望言论”。据我们所知，这是首个在多语言环境下针对平等、多元与包容主题进行希望言论标注的研究工作。我们采用Krippendorff’s alpha系数评估了该数据集的标注者间一致性，结果表明标注质量可靠。此外，我们建立了多个基准模型以评估该数据集的性能，并以精确率（precision）、召回率（recall）和F1分数作为评价指标。该数据集已向研究社区公开，供学术界自由使用。我们期望该资源能够推动更多关于促进包容性与响应性语言、强化积极话语的深入研究。

源 PDF