13 天前

HateMM:面向仇恨视频分类的多模态数据集

Mithun Das, Rohit Raj, Punyajoy Saha, Binny Mathew, Manish Gupta, Animesh Mukherjee
HateMM:面向仇恨视频分类的多模态数据集
摘要

仇恨言论已成为现代社会中最重要议题之一,其影响遍及线上与线下世界。因此,仇恨言论研究近年来受到广泛关注。然而,现有研究主要集中在文本媒体,针对图像的研究相对较少,而针对视频的研究更是寥寥无几。为此,亟需发展早期阶段的自动化视频内容审核技术,以应对平台持续上传的视频内容,保障网络环境的安全与健康。为实现从视频分享平台中检测并移除仇恨内容,本研究聚焦于基于多模态信息的仇恨视频识别。为此,我们从BitChute平台收集了约43小时的视频,并通过人工标注将其分类为“仇恨”或“非仇恨”类别,同时标注出支持该判断的关键视频帧区间。为有效获取相关视频,我们利用仇恨词汇表中的关键词进行搜索。研究发现,仇恨视频在图像与音频中呈现出多种可识别的线索。在此基础上,我们构建了基于深度学习的多模态分类模型,实验结果表明,融合视频全部模态信息(视觉、音频等)的模型在仇恨言论检测任务中表现显著优于单一模态模型,整体性能提升约5.7%(宏平均F1分数提升至0.790,准确率为0.798)。综上所述,本工作为理解与建模视频托管平台(如BitChute)上的仇恨视频迈出了关键的第一步。