17日前

PRE:再パラメータ化エンコーダを用いた視覚言語プロンプト学習

Thi Minh Anh Pham, An Duc Nguyen, Cephas Svosve, Vasileios Argyriou, Georgios Tzimiropoulos
PRE:再パラメータ化エンコーダを用いた視覚言語プロンプト学習
要約

CLIPをはじめとする大規模な事前学習済み視覚言語モデルは、下流タスクへのゼロショット転移性において大きな可能性を示している。しかし、最適な性能を達成するためには、下流の画像分布とテキストによるクラス記述との整合性を高めるために、プロンプトの手動選定が不可欠である。この手動によるプロンプト設計は、実用化における主要な課題であり、ドメインの専門知識を要し、極めて時間のかかる作業である。非自明なプロンプト設計を回避するため、最近の研究であるContext Optimization(CoOp)は、学習可能なテキストトークンを用いて視覚領域にプロンプト学習の概念を導入した。CoOpは手動プロンプトに比べて顕著な性能向上を達成しているが、同じデータセット内における未観測クラスへの一般化能力は劣っている。本研究では、再パラメータ化エンコーダを用いたプロンプト学習(Prompt Learning with Reparameterization Encoder, PRE)を提案する。これは、未観測クラスへの一般化能力を強化しつつ、基本クラスの学習能力を維持するシンプルかつ効率的な手法である。直接プロンプトを最適化するのではなく、PREはプロンプトエンコーダを用いて入力プロンプト埋め込みを再パラメータ化し、少数ショットサンプルからタスク固有の知識をより効果的に探索できるようにする。8つのベンチマークにおける実験および広範なアブレーション研究により、本手法がプロンプト学習において効率的であることが実証された。特に16ショット設定において、PREはCoOpと比較して未観測クラスの平均精度で5.60%の顕著な向上を達成し、ハーモニック平均においても3%の改善を示した。これらすべては、十分な学習時間内に達成された。