
摘要
视频异常检测是当前研究的重要领域,但在实际应用中仍面临严峻挑战。由于缺乏大规模标注的异常事件数据,现有的视频异常检测(VAD)方法大多聚焦于学习正常样本的分布,从而将显著偏离该分布的样本识别为异常。为了更有效地建模正常视频在运动与外观上的分布特性,许多现有方法引入了辅助网络以提取前景物体或动作等高层语义信息。这些高层语义特征能够有效抑制背景噪声的影响,提升检测模型的鲁棒性。然而,这些额外的语义建模模块的性能在很大程度上决定了整体VAD方法的检测效果。受扩散模型(Diffusion Model, DM)在生成能力和抗噪声方面卓越表现的启发,本文提出一种基于扩散模型的新方法,用于视频帧特征的预测,以实现异常检测。该方法旨在不依赖任何额外的高层语义特征提取模型的前提下,直接学习正常样本的特征分布。为此,我们构建了两个去噪扩散隐式模块:第一个模块专注于特征运动信息的学习,第二个模块则聚焦于特征外观信息的建模与优化。据我们所知,这是首个将扩散模型用于视频帧特征预测以实现VAD的创新方法。得益于扩散模型强大的建模能力,本方法在正常特征预测的准确性上显著优于基于非扩散模型的特征预测类VAD方法。大量实验结果表明,所提出的模型在多个基准数据集上均显著超越当前最先进的对比方法,展现出优异的检测性能。