9日前
視覚的プロンプトチューニング
Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, Ser-Nam Lim

要約
事前学習済みモデルを適応させる現在の一般的な手法は、バックボーンのすべてのパラメータを更新する、すなわちフルファインチューニングである。本論文では、視覚領域における大規模なTransformerモデルに対して、フルファインチューニングの効率的かつ効果的な代替手法として、Visual Prompt Tuning(VPT)を提案する。最近の大規模言語モデルの効率的チューニングに関する進展に着想を得て、VPTはモデルのバックボーンを固定したまま、入力空間にわずかな(モデルパラメータの1%未満)学習可能なパラメータを導入する。幅広い下流認識タスクにおける包括的な実験を通じて、他のパラメータ効率的なチューニング手法と比較して、VPTが顕著な性能向上を達成することを示した。特に重要なのは、モデルの容量や学習データ量のスケールにかかわらず、多くのケースでVPTがフルファインチューニングを上回る性能を発揮しつつ、タスクごとの保存コストを大幅に削減できることである。