要約
教師なし異常検出技術は、異常に関する事前知識を必要としないため、産業用検査分野においてその柔軟性と汎化能力から注目を集めている。これにより、知識ベースのコンピュータビジョン技術が、異常な画像パターンを識別するために広く応用されている。しかし、リアルタイムの産業応用では、異常サンプルが限られていること、欠陥に関する知識が不十分であること、また背景テクスチャが複雑であるといった課題が存在する。これらの要因により、欠陥領域を正確に同定することが困難となり、従来のオートエンコーダー型ネットワークはこれらを克服するのに限界がある。このような課題を解決するため、本研究ではドメインシフト状況を想定したマルチスケール特徴再構成(MSFR)ネットワークを提案する。本手法は、ピラミッド型ビジョントランスフォーマーネットワーク(PVTN)を用いて、異なるスケールでの判別的特徴を捉えるマルチスケール特徴マップを再構成する。さらに、事前学習済みモジュールにより同一スケールでのマルチレベル特徴を抽出し、専用の特徴マッチングモジュールによって特徴間の整合確率を向上させ、精度を強化している。MSFR戦略は、複数の深度でピクセルレベルの情報をフィルタリングする点で、従来のオートエンコーダーを上回る性能を発揮する。実証評価は、MVTec ADやAeBAD-Sといったベンチマークデータセットを用いて実施された。さらに、広範なアブレーションスタディにより、提案手法であるMSFRの有効性と実用性が確認された。実験結果から、本モデルは最近の手法を顕著に上回る性能を示しており、特に製造業における実世界の産業応用に極めて適していることが明らかになった。