HyperAIHyperAI

Command Palette

Search for a command to run...

動的時空間混合アテンションを用いたビデオトランスフォーマー

Adrian Bulat Juan-Manuel Perez-Rua Swathikiran Sudhakaran Brais Martinez Georgios Tzimiropoulos

概要

本稿では、Transformerを用いた動画認識について述べる。近年のこの分野における試みは、認識精度の面で有望な結果を示しているが、時間情報の追加モデリングにより、多くの場合、顕著な計算負荷の増加を引き起こすという問題も指摘されている。本研究では、動画フレーム数に対して計算量が線形に増加するVideo Transformerモデルを提案する。これにより、画像ベースのTransformerモデルと比較して、追加の計算負荷を生じさせない。この成果を達成するため、Video Transformerで用いられる完全な空間時間アテンションに対して、以下の2つの近似を導入している。(a) 時間アテンションを局所的な時間窓に制限し、Transformerの深さを活かして動画シーケンス全体の時間的カバレッジを確保する。(b) 空間のみのアテンションモデルに追加コストをかけずに、空間的および時間的位置を同時に扱う効率的な空間時間混合機構を採用する。さらに、極めて軽量な2種類のグローバル時間専用アテンション機構を統合する方法を示し、最小限の計算コストで認識精度をさらに向上させることを実証する。我々のモデルは、最も代表的な動画認識データセットにおいて非常に高い認識精度を達成するとともに、他のVideo Transformerモデルと比較して著しく効率的であることを示す。コードは公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています