
摘要
社交媒体平台使得仇恨内容在文本、音频和视觉等多种模态间广泛传播,因此亟需有效的检测方法。尽管近期研究在单一模态的处理上展现出一定潜力,但其在不同模态组合下的表现仍缺乏系统性探索。本文对基于融合的多模态仇恨内容检测方法进行了系统性分析,重点关注其在视频与图像类内容上的性能表现。我们的全面评估揭示了显著的模态特异性局限:在视频内容(HateMM数据集)上,简单的嵌入融合方法取得了当前最优性能,F1分数提升达9.9个百分点;然而,在处理包含复杂图文关系的网络迷因(Hateful Memes数据集)时,该方法表现不佳。通过详尽的消融实验与错误分析,我们揭示了现有融合方法在捕捉细微跨模态交互方面存在明显不足,尤其是在存在良性混淆因素(benign confounders)的情况下。研究结果为构建更鲁棒的仇恨内容检测系统提供了关键洞见,并强调了针对不同模态设计差异化架构的必要性。相关代码已开源,地址为:https://github.com/gak97/Video-vs-Meme-Hate。