17 天前

填空测试助力:通过学习完成视频事件实现高效的视频异常检测

Guang Yu, Siqi Wang, Zhiping Cai, En Zhu, Chuanfu Xu, Jianping Yin, Marius Kloft
填空测试助力:通过学习完成视频事件实现高效的视频异常检测
摘要

作为媒体内容理解中的关键课题,视频异常检测(Video Anomaly Detection, VAD)在深度神经网络(Deep Neural Network, DNN)的推动下取得了丰硕成果。然而,现有方法通常遵循重建或帧预测的范式,存在两个显著缺陷:(1)难以在精确性与全面性之间取得平衡,无法准确且完整地定位视频中的异常活动;(2)缺乏有效利用高层语义信息与时间上下文信息的能力。受语言学习中常见的“完形填空”(cloze test)启发,本文提出一种全新的VAD解决方案——视频事件补全(Video Event Completion, VEC),旨在弥补上述不足。具体而言,本文工作包含以下三方面创新:首先,提出一种新颖的处理流程,实现对视频活动区域的精准且全面的定位。通过联合利用外观(appearance)与运动(motion)信息作为互补线索,有效识别出感兴趣区域(Region of Interest, RoI)。针对每个RoI,构建一个归一化的时空立方体(Spatio-Temporal Cube, STC),将其作为完整的“视频事件”,为VEC框架奠定基础,并作为基本处理单元。其次,引入视觉完形填空任务,促使DNN模型捕捉高层语义信息。具体方法为:从STC中随机擦除某一局部区域,生成一个不完整的视频事件(Incomplete Event, IE)。DNN模型需基于剩余信息推断并恢复被擦除部分,从而重建原始视频事件。该机制有效增强了模型对语义结构的理解能力。第三,为进一步建模丰富的运动动态信息,额外训练一个DNN分支,用于推断被擦除区域的光流(optical flow),从而增强对运动模式的建模能力。最后,设计两种基于不同类型的IE(不完整事件)和多模态信息的集成策略,充分挖掘时间上下文与多源信息在异常检测中的潜力,显著提升整体性能。在多个主流VAD基准数据集上的实验结果表明,VEC方法在各项指标上均显著优于当前最先进的方法,平均AUC(AUROC)提升达1.5%至5%。本工作的代码与实验结果已开源,可于 GitHub 验证:github.com/yuguangnudt/VEC_VAD。