Dinomaly: 多クラス非監督異常検出における「少ないほど良い」の哲学

最近の研究では、複数クラスの画像に対して統一的なモデルを構築する非監督異常検出(Unsupervised Anomaly Detection, UAD)の実用的な設定が注目されています。この課題に対する様々な進歩にもかかわらず、複数クラス設定での検出性能は、最先端のクラス分離型モデルに比べて依然として大きく遅れています。当研究の目的は、この大きな性能差を埋めることです。本論文では、Dinomalyと呼ばれる最小限の再構成に基づく異常検出フレームワークを提案します。このフレームワークは、複雑な設計や追加モジュール、専門的なトリックに依存せずに純粋なTransformerアーキテクチャを使用しています。この強力なフレームワークはAttentionとMLPのみで構成されており、我々は複数クラスの異常検出に不可欠な4つの単純なコンポーネントを見いだしました。(1) 一般的かつ識別可能な特徴を抽出するFoundation Transformers、(2) 既存のDropoutがすべてのノイズ注入トリックを行うNoisy Bottleneck、(3) 自然的に集中できないLinear Attention、(4) 層間および点対点の再構成を強制しないLoose Reconstructionです。広範囲にわたる実験を行い、MVTec-AD、VisA、Real-IADなど人気のある異常検出ベンチマークで評価しました。提案したDinomalyは3つのデータセットにおいてそれぞれ99.6%、98.7%、89.3%という印象的な画像レベルAUROC(Area Under the Receiver Operating Characteristic Curve)を達成しており、これは複数クラスUAD手法の中でも最先端であり、さらにクラス分離型UAD記録でも最も進んだものとなっています。