17日前

動的時空間混合アテンションを用いたビデオトランスフォーマー

Adrian Bulat, Juan-Manuel Perez-Rua, Swathikiran Sudhakaran, Brais Martinez, Georgios Tzimiropoulos
動的時空間混合アテンションを用いたビデオトランスフォーマー
要約

本稿では、Transformerを用いた動画認識について述べる。近年のこの分野における試みは、認識精度の面で有望な結果を示しているが、時間情報の追加モデリングにより、多くの場合、顕著な計算負荷の増加を引き起こすという問題も指摘されている。本研究では、動画フレーム数に対して計算量が線形に増加するVideo Transformerモデルを提案する。これにより、画像ベースのTransformerモデルと比較して、追加の計算負荷を生じさせない。この成果を達成するため、Video Transformerで用いられる完全な空間時間アテンションに対して、以下の2つの近似を導入している。(a) 時間アテンションを局所的な時間窓に制限し、Transformerの深さを活かして動画シーケンス全体の時間的カバレッジを確保する。(b) 空間のみのアテンションモデルに追加コストをかけずに、空間的および時間的位置を同時に扱う効率的な空間時間混合機構を採用する。さらに、極めて軽量な2種類のグローバル時間専用アテンション機構を統合する方法を示し、最小限の計算コストで認識精度をさらに向上させることを実証する。我々のモデルは、最も代表的な動画認識データセットにおいて非常に高い認識精度を達成するとともに、他のVideo Transformerモデルと比較して著しく効率的であることを示す。コードは公開予定である。

動的時空間混合アテンションを用いたビデオトランスフォーマー | 最新論文 | HyperAI超神経