
摘要
计算机视觉中的异常检测任务旨在识别与正常图像集存在偏差的图像。一种常用方法是训练深度卷积自编码器,使其对图像中被遮盖的区域进行修复(inpainting),并将其输出结果与原始图像进行比较。通过仅在无异常样本上进行训练,假设模型无法准确重建异常区域。针对基于修复的异常检测,我们提出引入可能相距较远区域的信息将带来显著优势。具体而言,我们将异常检测建模为图像块修复(patch-inpainting)问题,并提出采用完全基于自注意力机制的方法,摒弃传统的卷积操作。所提出的Inpainting Transformer(InTra)模型能够对图像块序列中的遮盖区域进行修复,从而实现对输入图像大范围区域信息的整合。在从零开始训练的情况下,相较于其他不依赖额外训练数据的方法,InTra在MVTec AD数据集上的异常检测性能达到当前最先进水平,并在分割任务上实现超越。