
摘要
视频异常检测旨在识别与预期行为相偏离的事件。由于训练阶段缺乏异常样本,该任务极具挑战性。现有方法大多采用重构或未来帧预测的范式,然而这些方法忽视了样本在外观与运动信息之间的一致性,从而限制了其异常检测性能。在监控视频中,异常仅出现在运动的前景区域,因此在异常检测中,去除背景信息后的视频帧序列与光流所表达的语义应具有高度一致性,这一特性对异常检测至关重要。基于这一思想,本文提出一种名为“外观-运动语义表示一致性”(Appearance-Motion Semantics Representation Consistency, AMSRC)的框架,利用正常样本在外观与运动语义表示上的一致性来实现异常检测。首先,我们设计了一个双流编码器,用于分别编码正常样本的外观与运动信息表示,并引入约束机制,进一步强化外观与运动特征语义之间的一致性,从而使外观与运动特征表示一致性较低的异常样本能够被有效识别。此外,异常样本在外观与运动特征上的一致性较低,会导致其预测帧的重建误差较大,从而更易于被发现。实验结果表明,所提出方法在异常检测任务中具有显著的有效性。