摘要

异常检测近年来在计算机视觉领域受到越来越多关注，这可能归因于其广泛的应用场景，涵盖工业生产线上的产品缺陷检测、视频监控中的潜在事件预警，以及医学影像中病灶的识别等。无论具体应用领域如何，异常检测通常被建模为一类分类任务，即仅使用正常样本进行学习。一类成功的异常检测方法家族基于重建被掩码的正常输入（如图像块、未来帧等），并将重建误差的大小作为异常程度的度量指标。与其它基于重建的方法不同，本文提出了一种新型的自监督掩码卷积Transformer模块（Self-Supervised Masked Convolutional Transformer Block, SSMCTB），将重建功能内置于其核心架构层面。该提出的自监督模块具有极强的灵活性，可在神经网络的任意层级实现信息掩码，并兼容多种主流神经网络架构。在本研究中，我们在先前提出的自监督预测卷积注意力模块（Self-Supervised Predictive Convolutional Attention Block, SSPCAB）基础上，引入了三维掩码卷积层、通道维度注意力的Transformer结构，以及一种基于Huber损失的新型自监督学习目标。此外，我们验证了该模块在更广泛任务中的适用性，不仅涵盖原有的基于RGB图像和监控视频的任务，还扩展至医学图像和热成像视频的异常检测任务。通过将SSMCTB集成到多个前沿的异常检测神经网络模型中，我们展示了其出色的通用性与灵活性，并在五个基准数据集上取得了显著的性能提升。相关代码与数据已开源，地址为：https://github.com/ristea/ssmctb。

源 PDF