プロンプトの視覚的チューニングにおける力の再検討

視覚的プロンプトチューニング(Visual Prompt Tuning, VPT)は、微調整可能なプロンプトトークンを導入することで、事前学習済みモデルを下流タスクにカスタマイズする有望な手法として注目されている。しかし、VPTおよびその変種は、プロンプトの初期化、プロンプト長、自己教師付き事前学習における性能の低さといった課題に直面しており、文脈適応の成功を妨げている。本研究では、効果的な訓練過程におけるプロンプトトークンとパッチトークン間の相関関係の変化を調査することから始める。特に、プロンプトトークンがパッチトークンと高い相互情報量を共有する傾向にあることに着目し、下流タスクのトークンプロトタイプを用いたプロンプトの初期化を提案する。この戦略的初期化は、従来の初期化方法に代わる手法として、微調整性能を顕著に向上させる。さらに、計算コストのほぼ増加なしに優れた性能を維持しつつ、簡素化されたパイプラインによりトークン構築を最適化することで、さらなる性能向上を実現した。包括的な実験により、提案手法が既存手法を大きく上回ることが明らかになった。例えば、FGVCおよびVTAB-1Kベンチマークにおいて、学習可能なパラメータ数が0.4%未満の条件下で、24のタスクのうち19でフル微調整を上回る性能を達成した。特に、自己教師付き事前学習における適応性能が顕著に向上し、タスクごとの性能向上が最低10%から最大30%に達した。また、実験結果から、提案手法であるSPT(Self-Prompt Tuning)がプロンプト長に対して頑健であり、モデル容量や学習データ量の増加に伴ってスケーラブルであることも示された。最後に、事前学習モデルを下流タスクに適応させるために必要なターゲットデータ量について、洞察を提供した。コードは以下のURLで公開されている:https://github.com/WangYZ1608/Self-Prompt-Tuning。