
摘要
社交平台上的敌意内容正持续增长,这促使人们迫切需要有效识别敌意帖子,以便采取相应措施加以应对。尽管近年来在英文语境下已针对网络敌意内容问题开展了大量研究,但在印度语种领域的相关工作却极为稀缺。本文提出一种基于迁移学习的方法,用于对以印地语天城文(Hindi Devanagari)书写的社交媒体(如Twitter、Facebook等)帖子进行分类,判断其是否为敌意内容,并进一步分析敌意内容的类型,包括仇恨言论、虚假信息、诽谤和冒犯性言论。本研究采用基于注意力机制的预训练模型,该模型在印地语数据上进行了微调,并以“敌意-非敌意”分类作为辅助任务,融合其提取的特征以支持后续的细粒度分类任务。通过这一方法,我们构建了一个稳健且表现一致的模型,无需使用集成学习或复杂的预处理步骤。在CONSTRAINT-2021敌意帖子检测共享任务中,我们的模型在加权细粒度F1分数(Weighted Fine-Grained F1 Score)指标上取得了第三名佳绩,表现优异。