6 个月前

摘要

弱监督音视频暴力检测旨在仅使用视频级别标签区分包含多模态暴力事件的片段。以往多数方法在早期或中期阶段进行音视频融合与交互，却忽视了在弱监督设置下模态间的异质性问题。本文深入分析了多实例学习（MIL）过程中存在的模态不同步性（modality asynchrony）与实例同质化（undifferentiated instances）现象，并进一步探究其对弱监督音视频学习带来的负面影响。为解决上述问题，本文提出一种具有模态感知能力的对比实例学习与自蒸馏（Modality-Aware Contrastive Instance Learning with Self-Distillation, MACIL-SD）策略。具体而言，我们采用轻量级双流网络生成音频与视觉模态的“包”（bags），并在无监督条件下将单模态背景、暴力及正常实例聚类为半包（semi-bags）。随后，将音频与视觉模态中的暴力半包表示作为正样本对，而将某一模态的暴力半包与另一模态的背景或正常实例组合构成对比负样本对。此外，引入自蒸馏模块，将单模态视觉知识迁移至音视频联合模型，有效抑制噪声并缩小单模态与多模态特征之间的语义鸿沟。实验结果表明，所提框架在大规模XD-Violence数据集上优于现有方法，且具有更低的计算复杂度。同时，实验还验证了本方法可作为即插即用模块，有效增强其他网络结构的性能。代码已开源，地址为：https://github.com/JustinYuu/MACIL_SD。

源 PDF