15日前

Video Mamba シリーズ:状態空間モデルによる動画理解のための汎用的代替手法

Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
Video Mamba シリーズ:状態空間モデルによる動画理解のための汎用的代替手法
要約

動画の理解は、コンピュータビジョン研究における基盤的な研究方向の一つであり、RNN、3D CNN、Transformerといったさまざまなアーキテクチャの探求に多大な努力が注がれてきた。近年提案された状態空間モデル(State Space Model)の新アーキテクチャ、特にMambaは、長文系列モデリングにおける成功を動画モデリングへ拡張する有望な特性を示している。本研究では、Mambaが動画理解分野においてTransformerの有効な代替手段となり得るかを検証するため、Mambaが動画モデリングにおいて果たすさまざまな役割を詳細に調査し、Mambaが優位性を発揮しうる多様なタスクを検討した。Mambaを動画モデリングにおける4つの役割に分類し、14のモデル/モジュールから構成される「Video Mamba Suite」を構築し、12の動画理解タスクにおいて評価を行った。広範な実験の結果、Mambaは動画単体のタスクおよび動画・言語統合タスクの両面で強力な潜在能力を示し、効率性と性能のバランスにおいても有望なトレードオフを達成していることが明らかになった。本研究が、今後の動画理解に関する研究に貴重なデータと知見を提供できることを期待する。コードは公開済み:https://github.com/OpenGVLab/video-mamba-suite。