17日前
AdaCLIP:ハイブリッド可学習プロンプトを用いたCLIPの適応によるゼロショット異常検出
Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

要約
ゼロショット異常検出(ZSAD)は、任意の新規カテゴリに属する画像内の異常を検出することを目的としている。本研究では、事前学習済みの視覚言語モデル(VLM)であるCLIPを活用してZSADタスクに対応するAdaCLIPを提案する。AdaCLIPは、CLIPに学習可能なプロンプト(prompt)を組み込み、補助的なアノテーション付き異常検出データ上で学習することで、これらのプロンプトを最適化する。本研究では、静的(static)と動的(dynamic)の2種類の学習可能なプロンプトを提案する。静的プロンプトはすべての画像に共有され、CLIPの初期適応を実現する役割を果たす。一方、動的プロンプトは各テスト画像ごとに生成され、CLIPに動的な適応能力を付与する。静的プロンプトと動的プロンプトの組み合わせを「ハイブリッドプロンプト」と呼び、これによりZSAD性能が向上することが示された。産業および医療分野からなる14の実世界異常検出データセットを対象とした広範な実験の結果、AdaCLIPは他のZSAD手法を上回り、異なるカテゴリおよび領域への一般化性能も優れていることが確認された。さらに、本研究の分析から、多様な補助データと最適化されたプロンプトが、一般化能力の向上に重要な役割を果たすことが明らかになった。コードは以下のURLで公開されている:https://github.com/caoyunkang/AdaCLIP。