8ヶ月前

概要

深層学習モデル、特に画像モデルは、最近一般化能力和頑健性を向上させています。本研究では、これらの進歩をビデオ分類の領域に活用することを提案します。ビデオ基盤モデルは、広範な事前学習と長い訓練時間が必要という課題を抱えています。このような制約を緩和するために、画像モデルに対して「アテンションマップ（AM）フロー」を提案します。これは、各入力ビデオフレームにおいて運動に関連するピクセルを特定する手法です。この文脈で、カメラの動きに応じてAMフローを計算する2つの方法を提案します。AMフローは空間処理と時間処理の分離を可能にし、ビデオモデルのように空間・時間処理を組み合わせた場合よりも優れた結果を提供します。パラメータ効率的な転移学習の人気技術であるアダプターは、事前学習済みの画像モデルにAMフローを取り入れることを容易にし、完全ファインチューニングの必要性を軽減します。私たちはアダプターに時間処理ユニットを取り入れることで、「時間処理アダプター」を開発しました。本研究により、より速い収束が達成され、訓練に必要なエポック数が削減されます。さらに、画像モデルが人気のある行動認識データセットで最先端の結果を得る能力が付与されます。これにより訓練時間が短縮され、事前学習が簡素化されます。実験ではKinetics-400、Something-Something v2、およびToyota Smarthomeデータセットを使用し、最先端またはそれに匹敵する結果を示しています。以上が翻訳となります。ご確認ください。

ソースPDF