17日前
目的:画像モデルの適応による効率的な動画行動認識
Taojiannan Yang, Yi Zhu, Yusheng Xie, Aston Zhang, Chen Chen, Mu Li

要約
最近の視覚変換器(Vision Transformer)に基づく動画モデルは、主に「画像の事前学習 → ファインチューニング」の枠組みに従っており、複数の動画ベンチマークにおいて優れた成果を上げています。しかし、事前学習済みの画像変換器モデルが極めて高い転移性を示していることを考慮すると、このような動画モデルに対して完全なファインチューニングを行うことは計算コストが高く、必ずしも必要ではないと考えられます。本研究では、事前学習済み画像モデル(Adapt pre-trained Image Models; AIM)を効率的な動画理解に適応する新しい手法を提案します。事前学習済みの画像モデルを固定した上で、軽量なアダプタ(Adapter)を少数追加することで、空間的適応、時間的適応、および統合的適応を導入し、段階的に画像モデルに時空間推論能力を付与します。実験の結果、4つの動画行動認識ベンチマークにおいて、我々の提案するAIMは、従来手法と比較して同等あるいは優れた性能を達成しつつ、チューナブルなパラメータ数を大幅に削減できることを示しました。本手法のシンプルさにより、異なる事前学習済み画像モデルにも一般に適用可能であり、今後より強力な画像基盤モデルを活用する可能性を秘めています。プロジェクトページは以下の通りです:\url{https://adapt-image-models.github.io/}。