11日前

トレーニングの高速化、モデルの拡大、パフォーマンスの強化を実現するLoRAとの統合

Liting Lin, Heng Fan, Zhipeng Zhang, Yaowei Wang, Yong Xu, Haibin Ling

要約

大規模言語モデルにおけるパラメータ効率的な微調整（PEFT）に着想を得て、本研究では、実験室レベルのリソース環境下でも大規模ViTモデルの追跡性能を引き出す手法としてLoRATを提案する。本研究の核心は、推論遅延を増加させることなく、モデルパラメータの小さなサブセットのみを微調整するLoRA技術を、視覚追跡の分野に適応させることにある。しかし、トランスフォーマーに基づく追跡モデルには固有の課題やドメインギャップが存在するため、直感的な適用は容易ではない。第一に、トランスフォーマー型の追跡モデルはテンプレート画像と検索画像に対して共有されない位置埋め込み（position embedding）を構築する。これは、事前学習されたバックボーンから下流タスクへ適用する際、設計の一貫性を要求する一般的なLoRAの適用条件と矛盾する。第二に、畳み込みヘッドに内在する帰納的バイアス（inductive bias）が、追跡モデルにおけるパラメータ効率的な微調整の効果を低下させる。これらの課題を克服するため、我々はまず、トランスフォーマー型追跡モデルにおける位置埋め込みを、「共有空間型」と「独立タイプ型」に分離する。共有埋め込みは、複数解像度の画像（すなわちテンプレート画像と検索画像）の絶対座標を記述するものであり、事前学習されたバックボーンから継承される。一方、独立埋め込みは各トークンの出所を示すものであり、初期化から学習を開始する。さらに、PETRのアーキテクチャに適応するため、アノテーションフリーなヘッドをMLPのみで構成する新しい設計を提案することで、計算負荷を抑えた上で性能を向上させた。本手法により、以下の成果が得られた：1) ViT-gバックボーンを搭載した追跡モデルを、25.8GBのGPUメモリ（バッチサイズ16）の環境で実用的な訓練が可能になった；2) L-224バリアントの訓練時間を35.0から10.8GPU時間へ短縮；3) LaSOTデータセットにおけるSUCスコアをL-224バリアントで0.703から0.742へ向上；4) L-224バリアントの推論速度を52から119FPSへ高速化。コードおよびモデルは、https://github.com/LitingLin/LoRAT にて公開されている。