4ヶ月前

ZeroI2V: 画像から動画への事前学習済みトランスフォーマーのゼロコスト適応

Xinhao Li; Yuhan Zhu; Limin Wang
ZeroI2V: 画像から動画への事前学習済みトランスフォーマーのゼロコスト適応
要約

画像モデルをビデオ領域に適応させることが、ビデオ認識タスクの解決において効率的なパラダイムとして注目を集めています。画像モデルの大量のパラメータと高い転移能力により、完全な微調整を行うことは効率が低く、場合によっては不要です。したがって、最近の研究では、パラメータ効率の高い画像からビデオへの適応に焦点を当てています。しかし、これらの適応戦略は、ドメインギャップやビデオ内の時間的モデリングに対処するために、避けられない追加計算コストを導入します。本論文では、新しい適応パラダイム(ZeroI2V)を提案し、画像トランスフォーマーをビデオ認識タスクに転移させることを目指しています(すなわち、推論時に元のモデルにゼロの追加コストを導入します)。この目標を達成するために、以下の2つの核心的な設計を提示します。第一に、ビデオ内の動態を捉え、画像からビデオへの適応の難易度を低下させるために、自己注意機構の柔軟性を利用し、空間-時間二重ヘッド注意(Spatial-Temporal Dual-Headed Attention: STDHA)を導入します。この手法は、ゼロの追加パラメータと計算で画像トランスフォーマーに時間的モデリング能力を付与します。第二に、画像とビデオ間のドメインギャップに対処するために、軽量で密集配置された線形アダプターを使用する線形適応戦略を提案します。これにより、凍結された画像モデルが完全にビデオ認識へと転移されます。カスタマイズされた線形設計のおかげで、訓練後に構造再パラメータ化を通じてすべての新規追加アダプターが元のモジュールと簡単に統合され、推論時にゼロの追加コストが実現できます。代表的な完全教師ありおよび少ショットビデオ認識ベンチマークでの広範な実験結果は示しています。ZeroI2Vは従来の最先端手法と同等かそれ以上の性能を発揮しながらも、優れたパラメータ効率と推論効率を持つことを確認しました。