
摘要
近期,弱监督视频异常检测(WS-VAD)作为一种新兴的研究方向,旨在仅使用视频级别的标签来识别视频中的异常事件,如暴力和裸露行为。然而,这一任务面临着诸多挑战,包括解决模态信息不平衡问题以及持续区分正常和异常特征。在本文中,我们针对这些挑战提出了一种多模态WS-VAD框架,以准确检测诸如暴力和裸露等异常事件。在所提出的框架内,我们引入了一种新的融合机制——跨模态融合适配器(Cross-modal Fusion Adapter, CFA),该机制能够动态选择并增强与视觉模态高度相关的音频-视觉特征。此外,我们还引入了双曲洛伦兹图注意力机制(Hyperbolic Lorentzian Graph Attention, HLGAtt),以有效捕捉正常和异常表示之间的层次关系,从而提高特征分离的准确性。通过广泛的实验验证,我们证明了所提出的模型在暴力和裸露检测的基准数据集上达到了最先进的性能。