DiAD: 多クラス異常検出のための拡散ベースのフレームワーク

再構築に基づくアプローチは異常検出において著しい成果を上げています。最近人気の拡散モデルの優れた画像再構築能力が、異常画像のより高度な再構築に利用するための研究努力を喚起しました。しかしながら、これらの方法は、より実用的な多クラス設定において、画像カテゴリーとピクセル単位の構造的整合性の維持に関連する課題に直面する可能性があります。上記の問題を解決するために、我々は多クラス異常検出用の拡散モデルに基づく異常検出(DiAD)フレームワークを提案します。このフレームワークには、ピクセル空間オートエンコーダー、潜在空間における意味誘導(Semantic-Guided: SG)ネットワーク(安定した拡散モデルのデノイジングネットワークとの接続を持つ)、および特徴空間での事前学習済み特徴抽出器が含まれています。まず、SGネットワークは、元の画像の意味情報を保ちつつ異常領域を再構築するために提案されました。次に、広範囲にわたる再構築領域に対処する際の再構築精度を最大化するために、空間認識特徴融合(Spatial-aware Feature Fusion: SFF)ブロックを導入しました。さらに、入力画像と再構築された画像は事前学習済み特徴抽出器によって処理され、異なるスケールで抽出された特徴に基づいて異常マップが生成されます。MVTec-ADおよびVisAデータセットにおける実験結果は、我々のアプローチが最先端手法を超える効果性を示しており、例えば多クラスMVTec-ADデータセットでは局所化と検出に対してそれぞれ96.8/52.6および97.2/99.0(AUROC/AP)という成績を達成しています。コードは https://lewandofskee.github.io/projects/diad で公開予定です。