2ヶ月前

視覚言語モデルのプロンプト学習

Zhou, Kaiyang ; Yang, Jingkang ; Loy, Chen Change ; Liu, Ziwei
視覚言語モデルのプロンプト学習
要約

大規模事前学習済みのビジョン言語モデル(VLM)であるCLIPは、幅広い下流タスクに転移可能な表現を学習する大きな可能性を示しています。伝統的な表現学習が主に離散化されたラベルに基づいているのとは異なり、ビジョン言語事前学習は画像とテキストを共通の特徴空間で揃えることで、プロンプトを通じたゼロショット転移が可能となります。つまり、分類重みは対象クラスを説明する自然言語から合成されます。本研究では、このようなモデルを実際の用途に展開する際の主要な課題がプロンプトエンジニアリングであることを示します。これはドメイン知識が必要であり、非常に時間がかかるためです -- 言葉の微調整に多くの時間を費やす必要があり、わずかな文言の変更でも性能に大きな影響を与える可能性があります。最近の自然言語処理(NLP)におけるプロンプト学習研究の進展に着想を得て、私たちはCLIPのようなビジョン言語モデルを下流画像認識タスク向けに適応させるための単純なアプローチであるコンテキスト最適化(Context Optimization, CoOp)を提案します。具体的には、CoOpはプロンプトのコンテキストワードを学習可能なベクトルでモデル化し、全体的事前学習済みパラメータは固定したままです。異なる画像認識タスクに対応するために、CoOpには統合コンテキストとクラス固有コンテキストという2つの実装方法を提供します。11つのデータセットでの包括的な実験を通じて、CoOpは手作業で作成されたプロンプトに対して僅か1〜2ショットで十分なマージンを持つ優れた性能を発揮することを示しました。また、より多くのショットを使用することでプロンプトエンジニアリングよりも大幅な改善が得られることも確認しました。例えば、16ショットの場合、平均的な改善率は約15%(最高で45%以上)でした。学習ベースのアプローチにもかかわらず、CoOpは手作業で作成されたプロンプトを使用したゼロショットモデルと比較して優れたドメイン一般化性能を達成しています。