9日前

MeMViT：効率的な長期動画認識のためのメモリ拡張型マルチスケールビジョンTransformer

Chao-Yuan Wu, Yanghao Li, Karttikeya Mangalam, Haoqi Fan, Bo Xiong, Jitendra Malik, Christoph Feichtenhofer

要約

現在の動画認識システムは、スナップショットや短いクリップを正確に解析できるものの、長時間にわたる時間的関係を結びつけたり、その上で推論を行うことはまだできていない。既存の大多数の動画アーキテクチャは、計算量やメモリのボトルネックに達する前に5秒未満の動画しか処理できない。本論文では、この課題を克服するための新しい戦略を提案する。既存の多くの手法が一度に多数のフレームを処理しようと試みるのではなく、我々は動画をオンライン形式で処理し、各反復ステップで「記憶（memory）」をキャッシュする手法を提案する。この記憶を介して、モデルは過去のコンテキストを参照し、長期的なモデリングが可能となるが、計算コストはわずかに増加するにとどまる。このアイデアに基づき、MeMViT（Memory-augmented Multiscale Vision Transformer）を構築した。MeMViTは、既存モデルと比較して時間的サポートを30倍長くし、計算量はわずか4.5％増加にとどまる。一方、従来手法では同じ効果を得るためには3,000％以上の追加計算量が必要となる。幅広い設定において、MeMViTがもたらす時間的サポートの拡張は、一貫して認識精度の大幅な向上をもたらした。MeMViTは、AVA、EPIC-Kitchens-100の行動分類、および行動予測のデータセットにおいて、最先端の性能を達成した。コードとモデルは、https://github.com/facebookresearch/memvit にて公開されている。