自己教師付きビジョンTransformerにおける視覚プロンプトチューニングの改善

視覚的プロンプトチューニング(Visual Prompt Tuning; VPT)は、事前学習済みのビジョントランスフォーマー(Vision Transformers; ViTs)を下流タスクに適応させる効果的なチューニング手法である。VPTは、固定された事前学習済みViTの挙動を制御するため、学習可能な追加トークン(通称:プロンプト)を導入する。従来、VPTは教師あり学習によるViTにおいてその有効性を示してきたが、自己教師学習(self-supervised)に基づくViTではしばしば性能が劣る傾向にある。実証的な観察から、VPTの効果はプロンプトトークンがどのViTブロックと相互作用するかに大きく依存していることが明らかになった。特に、MAEやMoCo v3において、プロンプトトークンを最初のブロックに挿入するのではなく、後方のブロックに挿入することで、画像分類タスクにおける性能が向上することが確認された。この観察から、プロンプトトークンの挿入位置として最適なブロックが存在することが示唆される。しかしながら、多様な将来のシナリオにおいて、各自己教師学習ViTに対して最適なプロンプト挿入ブロックを特定することは、極めてコストが高くなる。この課題を軽減するため、本研究では各ViTブロックに対してゲートを学習するシンプルかつ効果的な手法を提案する。本手法により、タスク適応に必要なブロックのみがプロンプトトークンに影響を与えるよう選択的に制御される。実験結果から、本手法はFGVCおよびVTABの画像分類、さらにADE20Kのセマンティックセグメンテーションにおいて、従来のVPTの変種を上回る性能を達成した。コードはGitHubにて公開されている:https://github.com/ryongithub/GatedPromptTuning。