摘要
由于复杂多变的场景以及类内显著的差异性,视频中的暴力行为检测是一项极具挑战性的任务。以往大多数方法专注于外观或运动信息的分析,忽视了音频与视觉事件之间的协同发生关系。事实上,诸如殴打、虐待等肢体冲突通常伴随着尖叫,而群体性暴力事件(如暴乱、战争)则往往与枪声、爆炸声等音频特征密切相关。为此,本文提出一种新型的音频引导多模态暴力检测框架。首先,利用深度神经网络分别提取视频的外观特征与音频特征;随后,设计了一种跨模态感知局部唤醒(Cross-Modal Awareness Local-Arousal, CMA-LA)网络,实现跨模态交互,并在时间维度上对视觉特征进行音频引导的增强;增强后的特征被输入多层感知机(MLP)以捕捉高层语义信息,再通过时间卷积层生成高置信度的暴力行为评分。为验证所提方法的有效性,我们在大规模暴力视频数据集XD Violence上进行了实验。大量实验结果表明,该方法具有出色的鲁棒性,并在检测性能上达到了新的最先进水平,取得了当前最优的平均精度(AP)结果。