8 天前
在双曲空间中学习弱监督的音视频暴力检测
Xiaogang Peng, Hao Wen, Yikai Luo, Xiao Zhou, Keyang Yu, Ping Yang, Zizhao Wu

摘要
近年来,弱监督音视频暴力检测任务受到广泛关注。该任务的目标是基于视频级别的标签,从多模态数据中识别出包含暴力行为的片段。尽管该领域已取得一定进展,但以往研究普遍采用的传统欧几里得神经网络受限于特征空间的表达能力,难以捕捉高度判别性的特征表示。为克服这一局限,本文提出一种新颖的框架——HyperVD,该框架通过在双曲空间中学习片段嵌入(snippet embeddings),显著提升模型的判别能力。所提框架包含一个迂回融合模块(detour fusion module),用于实现多模态融合,有效缓解了音频与视觉信号之间的模态不一致性问题。此外,我们设计了两个全双曲图卷积网络分支,分别用于挖掘片段间的特征相似性与时间依赖关系,均在双曲空间中进行建模。通过在双曲空间中学习片段表示,该框架能够更有效地捕捉暴力事件与正常事件之间的语义差异。在XD-Violence基准数据集上的大量实验表明,所提方法显著优于当前最先进的技术,性能提升明显。