Command Palette
Search for a command to run...
視覚言語モデル向けのドメイン不変プロンプトの学習
視覚言語モデル向けのドメイン不変プロンプトの学習
Cairong Zhao Yubin Wang Xinyang Jiang Yifei Shen Kaitao Song Dongsheng Li Duoqian Miao
概要
プロンプト学習は、非常に少ないサンプルで学習可能なプロンプトベクトルを調整することにより、CLIPのような強力な視覚言語基盤モデルを下流のデータセットに適応させる、最も効果的かつ注目されている手法の一つである。しかし、プロンプト学習はドメイン内データにおいて優れた性能を発揮する一方で、未観測のクラスやドメインへの一般化能力という大きな課題に直面している。既存の一部のプロンプト学習手法は、異なるトークンやドメインに対して適応的に異なるプロンプトを生成することでこの問題に対処しているが、学習されたプロンプトが未観測ドメインに一般化する能力には十分な配慮がなされていない。本論文では、未観測ドメインにも一般化可能な「ドメイン不変プロンプト」を直接生成することを目的とした、新たなプロンプト学習パラダイムであるMetaPromptを提案する。具体的には、画像モダリティおよびテキストモダリティの両方の入力に対してプロンプトを生成するための二モダリティ型プロンプトチューニングネットワークを提案する。さらに、独自の非対称コントラスティブ損失を導入し、事前学習済みの視覚言語モデルの出力表現を教師信号として用いることで、学習されたプロンプトの一般化能力を強化する。特に重要なのは、メタラーニングに基づくプロンプトチューニングアルゴリズムを提案し、あるドメインやクラスに特化してチューニングされたプロンプトが、他のドメインやクラスにおいても良好な性能を発揮することを明示的に制約する点である。ベースから新しいクラスへの一般化を評価する11のデータセットおよびドメイン一般化を評価する4のデータセットにおける広範な実験結果から、本手法が既存手法を一貫してかつ顕著に上回ることを示した。