
摘要
近年来,为管控网络内容并清除滥用、冒犯性或仇恨言论,各类系统相继被开发出来。然而,权力掌握者有时会滥用此类审查手段,妨碍民主社会中言论自由的基本权利。因此,亟需开展研究,采用正向强化的方法,关注那些具有鼓励性、积极向上及支持性的网络内容。迄今为止,大多数相关研究主要集中于英语语境下负面内容的识别与处理,但该问题远不止于有害内容本身,更具有显著的多语言特征。为此,我们构建了一个名为“希望言论数据集:平等、多元与包容”(HopeEDI)的多语言数据集,其中包含来自社交媒体平台YouTube的用户生成评论,分别涵盖英语、泰米尔语和马拉雅拉姆语,数量分别为28,451条、20,198条和10,705条,并由人工标注为“包含希望言论”或“不包含希望言论”。据我们所知,这是首个在多语言环境下针对平等、多元与包容主题进行希望言论标注的研究工作。我们采用Krippendorff’s alpha系数评估了该数据集的标注者间一致性,结果表明标注质量可靠。此外,我们建立了多个基准模型以评估该数据集的性能,并以精确率(precision)、召回率(recall)和F1分数作为评价指标。该数据集已向研究社区公开,供学术界自由使用。我们期望该资源能够推动更多关于促进包容性与响应性语言、强化积极话语的深入研究。