4ヶ月前

TDS-CLIP: 時間差分サイドネットワークを用いた画像から動画への転移学習

Wang, Bin ; Wang, Wenqian
TDS-CLIP: 時間差分サイドネットワークを用いた画像から動画への転移学習
要約

最近、大規模事前学習済みの視覚言語モデル(例:CLIP)は、その強力な表現能力により大きな注目を集めています。これにより、研究者たちはこれらの大規模事前学習済みモデルからタスク固有のモデル(例:ビデオアクション認識モデル(VAR))へ知識を転送する方法に着想を得ました。特に、側方ネットワークを活用してパラメータ効率的な微調整(PEFT)の効率を向上させることが提案されています。しかし、現在のVARにおける転送手法は、大規模事前学習済みモデルからアクション認識ネットワークへ直接的に凍結された知識を最小限のコストで転送することに傾倒しており、アクション認識モデル自体の時系列モデリング能力を十分に活用していない傾向があります。本論文では、知識転送と時系列モデリングのバランスを取りつつ、凍結されたパラメータを持つモデルでの逆伝播を回避するため、メモリ効率の高い時系列差分側方ネットワーク(TDS-CLIP)を提案します。具体的には、局所的な運動特徴量の時系列差分を効果的に捉え、モデル全体の時系列モデリング能力を強化するための時系列差分アダプター(TD-Adapter)を導入します。さらに、側方ネットワークがビデオ内の豊富な運動情報を効率的に学習できるようガイドするために、側方運動強化アダプター(SME-Adapter)も設計しました。これにより、側方ネットワークが運動情報を捉え学習する能力が向上します。本手法について、Something-Something V1&V2 および Kinetics-400 の3つのベンチマークデータセット上で広範な実験を行いました。実験結果は、当手法が競合する性能を達成していることを示しています。