17日前

LADMIM:離散潜在空間におけるマスク画像モデリングを用いた論理異常検出

Shunsuke Sakai, Tatushito Hasegawa, Makoto Koshino
LADMIM:離散潜在空間におけるマスク画像モデリングを用いた論理異常検出
要約

オブジェクトの不適切な組み合わせや位置の逸脱などの論理的異常を検出することは、産業用異常検出において難しい課題である。従来の手法は主に正常画像の局所的特徴(例:傷や汚れ)に注目しており、特徴間の関係性に起因する異常の検出が困難である。マスク画像モデリング(Masked Image Modeling, MIM)は、画像内のマスクされた領域の特徴表現を予測する自己教師学習手法であり、マスク領域の再構成には画像の構成原理を理解する必要があるため、画像内における特徴間の関係性を学習可能となる。本研究では、MIMの特性を活用して論理的異常を効果的に検出する新しいアプローチを提案する。再構成画像のぼやけを軽減するため、ピクセルの直接予測に代えて、トークナイザーを用いてマスク領域の離散的潜在変数の確率分布を予測する。提案手法はMVTecLOCOデータセット上で評価され、平均AUCが0.867を達成し、従来の再構成ベースおよび蒸留ベースの手法を上回った。

LADMIM:離散潜在空間におけるマスク画像モデリングを用いた論理異常検出 | 最新論文 | HyperAI超神経