
要約
我々は、空間および時間にわたる自己注意(self-attention)にのみ依拠して構築された、畳み込みを一切用いない動画分類手法を提案する。本手法は「TimeSformer」と命名され、標準的なTransformerアーキテクチャを動画に適応させるために、フレームレベルのパッチ列から直接空間時系列特徴を学習可能とする。実験的検証により、さまざまな自己注意機構を比較した結果、各ブロック内で時間的注意と空間的注意を別々に適用する「分割注意(divided attention)」が、検討された設計選択の中で最も高い動画分類精度を達成することが示された。極めて新しいアーキテクチャ設計にもかかわらず、TimeSformerはKinetics-400およびKinetics-600を含む複数の行動認識ベンチマークにおいて、最先端の性能を達成しており、特にKinetics-400およびKinetics-600では報告された最高精度を記録した。さらに、3D畳み込みネットワークと比較して、本モデルは学習が高速であり、わずかな精度の低下で著しく高いテスト効率を実現できるほか、1分を超える長時間の動画クリップにも適用可能である。コードおよびモデルは以下のURLから公開されている:https://github.com/facebookresearch/TimeSformer。