
摘要
弱监督暴力检测是指仅使用视频级别的标签来训练模型以识别视频中的暴力片段的技术。在这些方法中,多模态暴力检测通过整合音频和光流等模态,展现出巨大的潜力。现有方法主要集中在设计多模态融合模型以解决模态差异问题。相比之下,我们采取了不同的方法;利用暴力事件表示中各模态固有的差异,提出了一种新的多模态语义特征对齐方法。该方法将局部、瞬时且信息量较少的模态(如音频和光流)的语义特征稀疏地映射到信息量较大的RGB语义特征空间中。通过迭代过程,该方法确定合适的非零特征匹配子空间,并基于此子空间对特定模态的事件表示进行对齐,从而在后续的多模态融合阶段充分利用所有模态的信息。在此基础上,我们设计了一个新的弱监督暴力检测框架,包括单模态多实例学习用于提取单模态语义特征、多模态对齐、多模态融合和最终检测。基准数据集上的实验结果证明了我们方法的有效性,在XD-Violence数据集上达到了86.07%的平均精度(Average Precision, AP)。我们的代码可在https://github.com/xjpp2016/MAVD 获取。