6 个月前

计算机视觉

计算机视觉

Shunsuke Sakai Tatushito Hasegawa Makoto Koshino

摘要

在工业异常检测中，识别物体组合错误或其位置偏离等逻辑异常是一项具有挑战性的任务。传统方法主要关注正常图像的局部特征（如划痕、污渍），难以有效检测特征之间的关联性异常。掩码图像建模（Masked Image Modeling, MIM）是一种自监督学习技术，通过预测图像中被掩码区域的特征表示来实现模型训练。为了重建被掩码区域，模型必须理解图像的构成方式，从而学习图像内部特征之间的关联关系。本文提出一种新颖方法，充分利用MIM的这一特性，以高效检测逻辑异常。为解决重建图像模糊的问题，我们摒弃传统的像素级预测，转而通过分词器（tokenizer）预测被掩码区域离散潜在变量的概率分布。在MVTecLOCO数据集上的实验结果表明，所提方法平均AUC达到0.867，优于传统的基于重建和知识蒸馏的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Shunsuke Sakai Tatushito Hasegawa Makoto Koshino

摘要

在工业异常检测中，识别物体组合错误或其位置偏离等逻辑异常是一项具有挑战性的任务。传统方法主要关注正常图像的局部特征（如划痕、污渍），难以有效检测特征之间的关联性异常。掩码图像建模（Masked Image Modeling, MIM）是一种自监督学习技术，通过预测图像中被掩码区域的特征表示来实现模型训练。为了重建被掩码区域，模型必须理解图像的构成方式，从而学习图像内部特征之间的关联关系。本文提出一种新颖方法，充分利用MIM的这一特性，以高效检测逻辑异常。为解决重建图像模糊的问题，我们摒弃传统的像素级预测，转而通过分词器（tokenizer）预测被掩码区域离散潜在变量的概率分布。在MVTecLOCO数据集上的实验结果表明，所提方法平均AUC达到0.867，优于传统的基于重建和知识蒸馏的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供