3ヶ月前

SAM-LAD:セグメント・アニーTHINGモデルがゼロショット論理異常検出に出会う

Yun Peng, Xiao Lin, Nachuan Ma, Jiayuan Du, Chuangwei Liu, Chengju Liu, Qijun Chen
SAM-LAD:セグメント・アニーTHINGモデルがゼロショット論理異常検出に出会う
要約

視覚的異常検出は、産業分野における欠陥検出や医療診断など、実世界の応用において極めて重要である。しかし、現在の大多数の手法は局所的な構造的異常に焦点を当てており、論理的条件下における高次の機能的異常の検出には失敗している。近年の研究では論理的異常検出に取り組んではいるが、主に欠落や追加といった単純な異常のみを扱うことができ、データ駆動型であるため汎化性能が著しく低いという問題がある。このような課題を克服するために、本研究では任意のシーンにおいて論理的異常検出が可能なゼロショット・プラグアンドプレイ型フレームワーク「SAM-LAD」を提案する。まず、事前学習済みのバックボーンを用いてクエリ画像の特徴マップを取得する。同時に、クエリ画像との類似度に基づく最近傍探索により、参照画像およびそれらに対応する特徴マップを取得する。次に、Segment Anything Model(SAM)を活用してクエリ画像および参照画像のオブジェクトマスクを抽出する。各オブジェクトマスクを画像全体の特徴マップと乗算することで、オブジェクト特徴マップを取得する。その後、クエリ画像と参照画像のオブジェクト間を一致させるための「オブジェクトマッチングモデル(OMM)」を提案する。オブジェクトマッチングを促進するために、さらに「動的チャネルグラフアテンション(DCGA)」モジュールを導入し、各オブジェクトをキーポイントとして扱い、特徴マップを特徴ベクトルに変換する。最後に、オブジェクトマッチングの関係に基づき、論理的異常を有するオブジェクトを検出するための「異常測定モデル(AMM)」を構築する。本モデルは、オブジェクト内の構造的異常の検出も可能である。提案手法SAM-LADは、産業用データセット(MVTec Loco AD、MVTec AD)および論理的異常データセット(DigitAnatomy)を含む多様なベンチマークで検証された。広範な実験結果から、SAM-LADは既存の最先端(SoTA)手法を上回り、特に論理的異常の検出において顕著な優位性を示した。