
要約
本稿では、動画認識を目的としたTransformerベースのフレームワーク「VTN(Video Transformer Network)」を提案する。近年の視覚Transformer(Vision Transformer)の進展に着想を得て、従来の動画行動認識において広く用いられてきた3D ConvNetに依存する手法を採用せず、動画全体の時系列情報を注目(attention)することで行動を分類する新しいアプローチを導入した。本手法は汎用性が高く、任意の2D空間ネットワークをベースに構築可能である。実行時間(wall-clock time)において、他の最先端手法と比較して、学習速度が16.1倍速く、推論時には5.1倍高速に動作する一方で、競争力のある精度を維持している。また、単一のエンドツーエンド処理で動画全体の分析を実現しつつ、計算量は1.5倍少ないGFLOPsで済む。Kinetics-400データセットにおいても、競争力ある結果を報告し、VTNの特性に関する消去実験および精度と推論速度のトレードオフについても検証した。本研究のアプローチが、動画認識分野における新たなベースラインとなり、新たな研究潮流の始まりとなることを期待する。コードおよびモデルは以下のURLから公開されている:https://github.com/bomri/SlowFast/blob/master/projects/vtn/README.md