
要約
大規模な事前学習済み視覚言語モデル(VLMs)は、手動で設計されたプロンプトを用いて、下流タスクにおいて驚くべきゼロショット性能を示している。より一層VLMを下流タスクに適応させるために、手動で設計されたプロンプトの代わりに、特定のドメインデータに基づいて微調整可能なソフトプロンプトが提案された。従来のプロンプト学習手法は、主に訓練サンプルから固定プロンプトまたは残差プロンプトを学習するものであった。しかし、学習されたプロンプトは多様性に欠け、未観測ドメインに関する情報を無視するという問題がある。本論文では、生成的視点からプロンプト学習フレームワークを再定式化し、ドメイン一般化(DG)タスクに対してシンプルかつ効率的な手法である「ソフトプロンプト生成(SPG)」を提案する。具体的には、SPGは二段階の訓練フェーズと推論フェーズから構成される。訓練フェーズでは、各ドメインに対してソフトプロンプトラベルを導入することで、生成モデルにドメイン知識を組み込むことを目的とする。推論フェーズでは、生成モデルの生成器を活用して、未観測のターゲットドメインに対してインスタンス固有のソフトプロンプトを取得する。本手法は、3つのDGタスクにおける5つのドメイン一般化ベンチマークで広範な実験を行い、最先端の性能を達成した。コードは以下のURLで公開されている:https://github.com/renytek13/Soft-Prompt-Generation-with-CGAN。