5ヶ月前

概要

異常検出は、通常のパターンから逸脱する異常を特定することを目的とするが、利用可能な正常データの量が限られているため、困難を伴う。既存の多くの統合型手法は、物体間の論理的関係を捉えるために、手作業で設計された画像特徴抽出器とメモリバンクに依存しているが、本研究では論理的異常の検出を強化するために、テキストメモリバンクを導入する。具体的には、構造的および論理的異常検出を統合するための「Three-Memoryフレームワーク（TMUAD）」を提案する。まず、入力画像から物体の豊かな論理的記述を捉えることができる、論理意識型テキスト抽出器を用いて、クラスレベルのテキストメモリバンクを構築する。次に、セグメンテーションされた物体から特徴を抽出することで、物体の完全な輪郭を保持するオブジェクトレベルの画像メモリバンクを構築する。さらに、パッチレベルの画像特徴を抽出するための視覚エンコーダを用いて、構造的異常検出用のパッチレベルメモリバンクを構築する。これらの三つの補完的なメモリバンクを用いて、クエリ画像と最も類似する正常画像を検索・比較し、複数レベルで異常スコアを計算した後、それらを統合して最終的な異常スコアを算出する。構造的および論理的異常検出を協調的なメモリバンクを通じて統合することで、TMUADは工業および医療分野を含む7つの公開データセットにおいて、最先端の性能を達成した。本モデルおよびコードは、以下のURLから公開されている。

ソースPDF コードを表示