11日前

読み取り専用プロンプト最適化による視覚言語少データ学習

Dongjun Lee, Seokwon Song, Jihee Suh, Joonmyung Choi, Sanghyeok Lee, Hyunwoo J.Kim
読み取り専用プロンプト最適化による視覚言語少データ学習
要約

近年、プロンプトチューニングは、事前学習された視覚言語モデルを下流タスクに適応させる手法として有効であることが示されている。これらの手法は、事前学習済みの重みを固定したまま、学習可能なプロンプトを導入することでモデルの適応を図るものである。しかし、学習可能なプロンプトは自己注意(self-attention)モジュール内の内部表現に影響を及ぼす可能性があり、特にデータが不足する状況では性能のばらつきや汎化能力の低下を引き起こすことがある。こうした課題に対処するため、本研究では新たなアプローチである「読み取り専用プロンプト最適化(Read-only Prompt Optimization: RPO)」を提案する。RPOは、マスク付き注意機構(masked attention)を活用することで、事前学習モデル内の内部表現のシフトを抑制する。さらに、RPOの最適化を促進するため、読み取り専用のプロンプトは事前学習モデルの特別なトークン(special tokens)に基づいて初期化される。広範な実験の結果、RPOはCLIPやCoCoOpと比較して、ベースから新しいクラスへの汎化性能およびドメイン汎化性能において優れており、より高いロバスト性を示した。また、極めてデータが不足する環境下でも優れた汎化性能を達成しつつ、パラメータ効率性と計算負荷の両面で改善が見られた。実装コードは、https://github.com/mlvlab/RPO にて公開されている。

読み取り専用プロンプト最適化による視覚言語少データ学習 | 最新論文 | HyperAI超神経