17 天前
SSMTL++:重新审视用于视频异常检测的自监督多任务学习
Antonio Barbalau, Radu Tudor Ionescu, Mariana-Iuliana Georgescu, Jacob Dueholm, Bharathkumar Ramachandra, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah

摘要
近期文献中提出了一种用于视频异常检测的自监督多任务学习(Self-Supervised Multi-Task Learning, SSMTL)框架。由于该方法取得了高度准确的检测结果,吸引了众多研究人员的关注。在本研究中,我们重新审视了该自监督多任务学习框架,并对原始方法提出多项改进。首先,我们系统研究了多种异常检测策略,例如基于光流检测高运动区域或采用背景减除法。我们认为,当前所采用的预训练YOLOv3模型存在局限性,尤其在检测运动中的物体或未知类别物体方面表现不佳,因此其适用性有待提升。其次,为增强模型的表征能力,我们对3D卷积主干网络进行了现代化改造,引入受视觉Transformer(Vision Transformer)近期成功启发的多头自注意力模块。在此基础上,我们创新性地提出了2D与3D卷积视觉Transformer(Convolutional Vision Transformer, CvT)块的混合结构,以兼顾局部空间特征与时空建模能力。第三,为进一步提升模型性能,我们探索了多种额外的自监督学习任务,包括:通过知识蒸馏预测分割图、求解拼图(jigsaw puzzle)任务、通过知识蒸馏估计人体姿态、预测被掩码区域(图像修复,inpainting),以及利用伪异常样本进行对抗学习。我们通过大量实验评估了上述改进对模型性能的影响。在识别出更具潜力的框架配置后,我们将其命名为SSMTL++v1与SSMTL++v2,并将初步实验扩展至更多数据集。实验结果表明,我们的方法在所有数据集上均保持稳定的性能提升。在Avenue、ShanghaiTech和UBnormal等主流数据集上,我们的方法显著超越现有最优结果,将视频异常检测的性能基准提升至全新水平。