16日前

視覚言語モデルにおける一貫性誘導型プロンプト学習

Shuvendu Roy, Ali Etemad
視覚言語モデルにおける一貫性誘導型プロンプト学習
要約

本稿では、視覚言語モデル向けの新しいファインチューニング手法として、一貫性制約付きプロンプト学習(Consistency-guided Prompt learning, CoPrompt)を提案する。本手法は、少数ショット(few-shot)設定下で下流タスクに大規模な基礎モデルをファインチューニングする際の汎化性能を向上させることを目的としている。CoPromptの基本的なアイデアは、学習可能なモデルと事前学習済みモデルの予測結果間に一貫性制約を課すことにより、下流タスクにおける過学習を防ぐことにある。さらに、性能向上を図るため、以下の2つの要素を一貫性制約に組み込む。第一に、変換された入力(perturbed inputs)に対する予測の一貫性を強制することで、一貫性制約の正則化効果をさらに高める。第二に、プロンプト学習とアダプター(adapter)の2つの主流なチューニングアプローチを統合する。変換された入力に対する一貫性制約は、モデルの汎化能力をさらに強化する。また、アダプターとプロンプトの統合は、下流タスクにおける性能向上に寄与するだけでなく、入力空間および出力空間の両方においてチューニングの柔軟性を高める。これにより、少数ショット学習環境下での下流タスクへの効果的な適応が可能となる。実験結果から、CoPromptはベースから新しいクラスへの汎化(base-to-novel generalization)、ドメイン汎化(domain generalization)、およびクロスデータセット評価といった多様な評価スイートにおいて、既存手法を上回ることが示された。特に、ゼロショットタスクにおいては最先端の性能を達成し、11のデータセットにおける全体的な調和平均(harmonic mean)においても性能を向上させた。詳細なアブレーションスタディにより、CoPromptの各構成要素の有効性が確認された。本研究のコードは、https://github.com/ShuvenduRoy/CoPrompt にて公開している。

視覚言語モデルにおける一貫性誘導型プロンプト学習 | 最新論文 | HyperAI超神経