KAnoCLIP: 知識駆動プロンプト学習と強化されたクロスモーダル統合を用いたゼロショット異常検出

ゼロショット異常検出(ZSAD)は、対象データセットのトレーニングサンプルを必要とせずに異常を識別する手法であり、プライバシーの懸念やデータが限られているシナリオにおいて重要です。ビジョン言語モデル(CLIPなど)はZSADに有望な可能性を示していますが、制約も存在します。手動で作成された固定的なテキスト説明や異常プロンプトへの依存は時間のかかる作業であり、意味的な曖昧さを引き起こしやすいという問題があります。また、CLIPはピクセルレベルの異常セグメンテーションに苦戦し、局所的な詳細よりも全体的な意味論に焦点を当てています。これらの制約に対処するために、KAnoCLIPという新しいZSADフレームワークを提案します。KAnoCLIPはビジョン言語モデルを活用し、大規模言語モデル(GPT-3.5)から得られる一般的な知識と、ビジュアル質問応答システム(Llama3)から得られる細かい画像特有の知識をKnowledge-Driven Prompt Learning (KnPL)を通じて組み合わせます。KnPLは知識駆動型(KD)損失関数を使用して学習可能な異常プロンプトを作成し、固定的なテキストプロンプトの必要性を取り除き、汎化性能を向上させます。KAnoCLIPには以下のコンポーネントが含まれています:CLIP視覚エンコーダーにV-V注意機構(CLIP-VV)、多段階クロスモーダル相互作用のための双方向クロス注意機構(Bi-CMCI)、およびConv-Adapter。これらのコンポーネントにより、局所的な視覚的意味論が保たれ、局所的なクロスモーダル融合が改善され、全体的な視覚的特徴がテキスト情報と整合されるようになり、ピクセルレベルでの異常検出性能が向上します。KAnoCLIPは12の産業用および医療用データセットで最先端の性能を達成しており、既存の方法よりも優れた汎化能力を持つことを示しています。