ビジュアルプロンプトチューニング

Visual Prompt Tuning (VPT) は、事前学習済みの Transformer バックボーンを凍結したまま、入力空間に少数のタスク固有の学習可能なパラメータを導入する効率的なファインチューニング手法です。下流タスクの学習中に、これらのパラメータは線形ヘッドとともに最適化されます。VPT は低データ量の状況でも優れた性能を発揮し、異なるデータスケールにおいてもその優位性を維持します。さらに、VPT はさまざまな Transformer のスケールや設計(ViTBase/Large/Huge、Swin など)と競争力があり、増大する視覚的バックボーンネットワークへの適応に効果的なアプローチとなっています。

ビジュアルプロンプトチューニング | SOTA | HyperAI超神経