11日前

MaPLe: マルチモーダル・プロンプト学習

Muhammad Uzair Khattak, Hanoona Rasheed, Muhammad Maaz, Salman Khan, Fahad Shahbaz Khan
MaPLe: マルチモーダル・プロンプト学習
要約

事前学習された視覚・言語(V-L)モデル、たとえばCLIPは、下流タスクへの汎化能力が優れていることが示されている。しかし、入力テキストプロンプトの選択に敏感であり、良好な性能を発揮するためには、慎重なプロンプトテンプレートの選定が必要となる。自然言語処理(NLP)分野の先行研究にインスパイアされ、最近のCLIPの適応手法では、下流タスク向けにCLIPを微調整するためのテキスト入力としてプロンプトを学習するアプローチが採用されている。本研究では、CLIPの言語または視覚のいずれか一方のブランチにのみプロンプトを用いて表現を適応する方法が、下流タスクに応じて両表現空間を動的に調整する柔軟性を欠くため、非最適であることに着目している。本研究では、視覚と言語の両ブランチに対してマルチモーダルプロンプト学習(MaPLe)を提案し、視覚表現と言語表現間の整合性を向上させる。我々の設計は、視覚・言語プロンプト間の強い結合を促進することで相互補完的な相互作用を確保するとともに、単一モーダルな独立した解の学習を抑制する。さらに、初期段階ごとに別々のプロンプトを学習することで、段階的な特徴関係を段階的にモデル化し、豊かな文脈学習を可能にする。本手法の有効性は、新クラスへの汎化、新たなターゲットデータセットへの適応、未観測のドメインシフトへの対応という3つの代表的なタスクにおいて評価された。最先端手法であるCo-CoOpと比較して、MaPLeは優れた性能を示し、11種類の多様な画像認識データセットを平均した結果、新クラスにおいて3.45%の絶対的向上、全体の調和平均において2.72%の絶対的向上を達成した。本研究のコードおよび事前学習モデルは、https://github.com/muzairkhattak/multimodal-prompt-learning にて公開されている。

MaPLe: マルチモーダル・プロンプト学習 | 最新論文 | HyperAI超神経