18日前

細粒度視覚分類のためのマルチモーダルプロンプトの探求

Xin Jiang, Hao Tang, Junyao Gao, Xiaoyu Du, Shengfeng He, Zechao Li
細粒度視覚分類のためのマルチモーダルプロンプトの探求
要約

細粒度視覚分類(Fine-grained Visual Classification: FGVC)は、広義のカテゴリ内における細かいサブカテゴリを識別するタスクであり、クラス間の微細な差異とクラス内での大きな変動性という課題を抱えている。しかし、従来のアプローチは主に単一モーダルな視覚的特徴に焦点を当てており、限界がある。一方、事前学習された視覚言語モデル(vision-language models)は、さまざまな高レベルの視覚タスクにおいて優れた性能を示しているが、そのモデルがFGVCタスクにどのように適用可能であるかはまだ不明確である。本論文では、クロスモーダルな記述の能力を最大限に活用し、FGVCタスクに効果的に対応するため、対照的言語・画像事前学習(Contrastive Language-Image Pre-training: CLIP)モデルを基盤とした新たなマルチモーダル・プロミング手法、MP-FGVCを提案する。MP-FGVCは、マルチモーダル・プロンプト設計とマルチモーダル適応設計の2つの主要構成要素からなる。前者には、視覚的および言語的視点からサブカテゴリ固有の差異を明示的に強調する「サブカテゴリ固有の視覚プロンプト(Subcategory-specific Vision Prompt: SsVP)」と「差異認識型テキストプロンプト(Discrepancy-aware Text Prompt: DaTP)」が含まれる。後者では、視覚とテキストのプロンプト要素を共通の意味空間に統合し、視覚言語融合モジュール(Vision-Language Fusion Module: VLFM)を用いてクロスモーダルな協調推論を実現することで、FGVC性能をさらに向上させる。さらに、事前学習されたCLIPモデルの能力を十分に活かしつつ、FGVCタスクへの効率的な適応を促進するため、MP-FGVCに特化した二段階最適化戦略を設計した。4つのFGVCデータセットを用いた広範な実験により、本手法の有効性が実証された。