摘要

近期文献中提出了一种用于视频异常检测的自监督多任务学习（Self-Supervised Multi-Task Learning, SSMTL）框架。由于该方法取得了高度准确的检测结果，吸引了众多研究人员的关注。在本研究中，我们重新审视了该自监督多任务学习框架，并对原始方法提出多项改进。首先，我们系统研究了多种异常检测策略，例如基于光流检测高运动区域或采用背景减除法。我们认为，当前所采用的预训练YOLOv3模型存在局限性，尤其在检测运动中的物体或未知类别物体方面表现不佳，因此其适用性有待提升。其次，为增强模型的表征能力，我们对3D卷积主干网络进行了现代化改造，引入受视觉Transformer（Vision Transformer）近期成功启发的多头自注意力模块。在此基础上，我们创新性地提出了2D与3D卷积视觉Transformer（Convolutional Vision Transformer, CvT）块的混合结构，以兼顾局部空间特征与时空建模能力。第三，为进一步提升模型性能，我们探索了多种额外的自监督学习任务，包括：通过知识蒸馏预测分割图、求解拼图（jigsaw puzzle）任务、通过知识蒸馏估计人体姿态、预测被掩码区域（图像修复，inpainting），以及利用伪异常样本进行对抗学习。我们通过大量实验评估了上述改进对模型性能的影响。在识别出更具潜力的框架配置后，我们将其命名为SSMTL++v1与SSMTL++v2，并将初步实验扩展至更多数据集。实验结果表明，我们的方法在所有数据集上均保持稳定的性能提升。在Avenue、ShanghaiTech和UBnormal等主流数据集上，我们的方法显著超越现有最优结果，将视频异常检测的性能基准提升至全新水平。

源 PDF