
近年の大多数の動画認識モデルは、短い動画クリップ(例:5~10秒程度)を対象に設計されている。そのため、長時間の映画理解タスクにこうしたモデルを適用することは困難であり、通常は高度な長距離時系列推論が求められる。最近提案された動画トランスフォーマーは、長距離時系列自己注意(long-range temporal self-attention)を用いることで、この課題の一部を解決している。しかし、自己注意の計算コストが二次関数的であるため、このようなモデルはしばしば高コストであり、実用的とは言えない場合がある。そこで本研究では、自己注意と最近導入された構造化状態空間系列(Structured State-space Sequence, S4)層の利点を統合した効率的な長距離動画モデル、ViS4merを提案する。本モデルは、短距離の空間時系列特徴抽出に標準的なトランスフォーマー・エンコーダを用い、その後の長距離時系列推論にはマルチスケール時系列S4デコーダを採用している。デコーダ層ごとに空間時系列特徴の解像度とチャネル次元を段階的に低減することで、ViS4merは動画内における複雑な長距離空間時系列依存関係を効率的に学習する。さらに、純粋な自己注意に基づくモデルと比較して、ViS4merは2.63倍高速であり、GPUメモリ使用量は8分の1に削減される。また、Long Video Understanding(LVU)ベンチマークにおける9つの長時間映画動画分類タスクのうち6つで最先端の性能を達成した。さらに、本手法が他の領域にも良好に一般化できることを示し、BreakfastおよびCOIN手順的行動データセットにおいても競争力ある結果を獲得した。コードは公開されており、以下から入手可能である:https://github.com/md-mohaiminul/ViS4mer。