
摘要
视频异常检测因其在监控视频自动监测需求日益增长的背景下受到广泛关注。其中,基于预测的方法是当前研究最为深入的异常检测技术之一:该方法通过在训练阶段学习正常视频帧的特征,进而在测试阶段预测包含异常事件的帧。然而,许多现有预测网络因依赖预训练的光流网络而计算开销巨大,或因具备过强的生成能力,能够对异常情况也进行合理预测,从而导致无法有效识别异常。为解决上述问题,本文提出空间旋转变换(Spatial Rotation Transformation, SRT)与时间混合变换(Temporal Mixing Transformation, TMT),在正常帧立方体内部生成不规则的块状体(patch cuboids),以增强对正常特征的学习能力。此外,所提出的块变换仅在训练阶段使用,使得模型在推理阶段能够以极快的速度检测异常帧。我们在三个主流异常检测基准数据集上对所提模型进行了评估,结果表明其在检测精度方面具有竞争力,并在推理速度上全面超越了以往所有方法。