PVP:事前学習済み視覚的パラメータ効率的微調整

大規模な事前学習済みトランスフォーマーは、さまざまなコンピュータビジョンタスクにおいて顕著な成果を示している。しかし、これらのモデルを下流タスクに完全微調整(fine-tune)する際には、高い計算コストとストレージコストが依然として大きな課題である。近年、パラメータ効率的微調整(Parameter-Efficient Tuning, PETuning)技術、例えば視覚的プロンプト微調整(Visual Prompt Tuning, VPT)や低ランク適応(Low-Rank Adaptation, LoRA)が登場し、事前学習済みモデルに軽量なプロンプトモジュールを挿入し、少数の可学習パラメータでこれらのモジュールのみを微調整することで、トランスフォーマーベースのバックボーンは固定したまま、計算コストとストレージコストを大幅に削減する効果を発揮している。ただし、わずかなパラメータしか調整しなくても、多くのPETuning手法は良好な結果を得るためには下流タスク用の大量の訓練データを必要としている。特にクラスあたり1〜2例しか存在しないような低データ環境では性能が不十分である。本研究では、まず実験的に性能の低さの主な原因がプロンプトモジュールの初期化方法が不適切であることに起因していることを明らかにした。これは事前学習済み言語モデルにおいても同様の現象が確認されていることからも裏付けられている。その後、我々は「事前学習済み視覚的パラメータ効率的微調整(Pre-trained Visual Parameter-efficient, PVP)」という新しいフレームワークを提案する。この手法は、まずパラメータ効率的微調整用のモジュールを事前学習し、その後、その事前学習済みモジュールと事前学習済みトランスフォーマーベースを組み合わせて、下流タスクに対してパラメータ効率的な微調整を実施する。5つの細分化視覚分類(Fine-Grained Visual Classification, FGVC)およびVTAB-1kデータセットにおける実験結果から、本手法が最先端のPETuning手法を顕著に上回ることを示した。