11日前

視覚言語モデルにおける条件付きプロンプト学習

Kaiyang Zhou, Jingkang Yang, Chen Change Loy, Ziwei Liu
視覚言語モデルにおける条件付きプロンプト学習
要約

CLIPをはじめとする強力な事前学習済み視覚言語モデルの登場に伴い、これらのモデルを下流のデータセットに適応させる方法の検討が重要となっている。最近提案された「コンテキスト最適化(Context Optimization, CoOp)」は、自然言語処理(NLP)分野で注目されている「プロンプト学習(prompt learning)」の概念を視覚領域に導入し、事前学習済みの視覚言語モデルの適応を実現している。具体的には、プロンプト内のコンテキスト語を学習可能なベクトルの集合に置き換え、少量のラベル付き画像のみを用いても、手動で細かくチューニングされたプロンプトよりも著しい性能向上を達成している。本研究では、CoOpに根本的な問題が存在することを指摘する。すなわち、学習されたコンテキストは、同じデータセット内における未観測クラスに対して一般化が不十分であり、学習時に観測されたベースクラスに過剰適合(overfitting)している可能性がある。この問題に対処するために、本研究では「条件付きコンテキスト最適化(Conditional Context Optimization, CoCoOp)」を提案する。CoCoOpは、CoOpの枠組みを拡張し、各画像に対して入力に依存するトークン(ベクトル)を生成する軽量なニューラルネットワークを追加で学習する。CoOpの静的プロンプトに対して、本手法は動的なプロンプトを導入することで、各サンプルに応じた適応が可能となり、クラス分布の変化(class shift)に対してよりロバストである。広範な実験により、CoCoOpがCoOpよりも未観測クラスへの一般化性能が大幅に優れていることが確認された。さらに、単一データセットを超えた転移可能性(transferability)も示しており、ドメイン一般化性能(domain generalization performance)においても優れた結果を達成している。コードは以下のGitHubリポジトリで公開されている:https://github.com/KaiyangZhou/CoOp。

視覚言語モデルにおける条件付きプロンプト学習 | 最新論文 | HyperAI超神経