
大規模な事前学習済み視覚モデルは、コンピュータビジョン分野において顕著な成果を上げています。しかし、下流タスク、特に動画理解において大規模モデルを完全に微調整(fine-tuning)するには、計算コストが非常に高くなり、現実的でない場合があります。近年の研究は、効率的な画像から動画への転移学習に注目が集まっています。しかしながら、既存の効率的な微調整手法は、トレーニング時のメモリ使用量の低減や、より大規模なモデルを動画領域へ転移する可能性の探求に十分な配慮が欠けています。本論文では、大規模な画像モデルを動画理解に効率的に微調整するための新しい空間時系列側路ネットワーク(Spatial-Temporal Side Network)を提案し、それを「Side4Video」と名付けます。具体的には、固定された(frozen)視覚モデルに接続される軽量な空間時系列側路ネットワークを導入することで、重い事前学習モデルを介した逆伝播(backpropagation)を回避しつつ、元の画像モデルから得られる多レベルの空間特徴を活用します。この極めてメモリ効率の高いアーキテクチャにより、従来のアダプタベース手法と比較して75%のメモリ使用量削減が可能となります。このアプローチにより、ViT-L(304Mパラメータ)の14倍以上(4.4Bパラメータ)に達する巨大なViT-Eモデルを動画理解タスクに転移することが可能になりました。提案手法は、単モーダルおよびクロスモーダルのさまざまな動画データセットにおいて優れた性能を達成しており、特にSomething-Something V1&V2(67.3% & 74.6%)、Kinetics-400(88.6%)、MSR-VTT(52.3%)、MSVD(56.1%)、VATEX(68.8%)において顕著な結果を示しました。コードはGitHubにて公開されています:https://github.com/HJYao00/Side4Video。