
摘要
在工业异常检测中,识别物体组合错误或其位置偏离等逻辑异常是一项具有挑战性的任务。传统方法主要关注正常图像的局部特征(如划痕、污渍),难以有效检测特征之间的关联性异常。掩码图像建模(Masked Image Modeling, MIM)是一种自监督学习技术,通过预测图像中被掩码区域的特征表示来实现模型训练。为了重建被掩码区域,模型必须理解图像的构成方式,从而学习图像内部特征之间的关联关系。本文提出一种新颖方法,充分利用MIM的这一特性,以高效检测逻辑异常。为解决重建图像模糊的问题,我们摒弃传统的像素级预测,转而通过分词器(tokenizer)预测被掩码区域离散潜在变量的概率分布。在MVTecLOCO数据集上的实验结果表明,所提方法平均AUC达到0.867,优于传统的基于重建和知识蒸馏的方法。