
摘要
我们提出了一种新颖的单场景视频异常定位框架,该框架能够为系统决策提供人类可理解的解释依据。首先,我们利用深度网络学习物体及其运动的通用表征;随后,基于这些表征构建针对特定场景的高层、位置相关的模型。该模型可用于检测同一场景中新视频的异常行为。尤为重要的是,我们的方法具备可解释性——所提取的高层外观与运动特征能够为视频中任意部分被判定为正常或异常提供人类可理解的原因。我们在标准的视频异常检测数据集(Street Scene、CUHK Avenue、ShanghaiTech 以及 UCSD Ped1、Ped2)上进行了实验,结果表明,该方法在性能上显著优于此前的最先进方法。