
要約
本稿では、視覚異常検出を対象とした新規かつ最先端の「デュアルアテンション・トランスフォーマーと識別的フロー(DADF)」フレームワークを提案する。正常な状態のみを前提とした視覚異常検出は、産業分野において広範な応用が可能であり、近年注目を集めている。しかし、既存の多くはその要求を満たせていない。これに対し、本研究で提案するDADFは新たなアプローチを提示する:まず事前学習済みネットワークを用いてマルチスケールの事前知識埋め込み(prior embeddings)を取得し、その後、自己アテンションと記憶アテンションという二重のアテンション機構を備えた視覚トランスフォーマーを構築することで、順序性と正常性の関連を考慮した二段階の事前知識埋め込みの再構成を実現する。さらに、各スケールにおける事前知識と再構成の同時分布に対して、正規化フロー(normalizing flow)を用いて識別的な尤度を構築する手法を提案する。実験結果として、Mvtec ADベンチマークでは画像レベルおよびピクセルレベルでそれぞれ98.3、98.4のAUROCを達成し、Mvtec LOCO ADでは画像レベルAUROCが83.7、ピクセルレベルsPROが67.4を記録した。これらの結果は、本研究で提案する手法の有効性を明確に示している。