2ヶ月前

VideoMamba: 効率的なビデオ理解のための状態空間モデル

Li, Kunchang ; Li, Xinhao ; Wang, Yi ; He, Yinan ; Wang, Yali ; Wang, Limin ; Qiao, Yu
VideoMamba: 効率的なビデオ理解のための状態空間モデル
要約

ローカル冗長性とグローバル依存関係というビデオ理解における二つの課題に対処するため、本研究では革新的にMambaをビデオ領域に適応させました。提案されたVideoMambaは、既存の3次元畳み込みニューラルネットワークやビデオトランスフォーマーの制限を克服しています。その線形複雑度演算子により、高解像度の長いビデオ理解において重要な効率的な長期モデリングが可能となります。広範な評価によって、VideoMambaの四つの核心的能力が明らかになりました:(1) 新たな自己蒸留技術のおかげで、大規模データセットでの事前学習なしでも視覚領域でのスケーラビリティを実現;(2) 細かい動きの違い即便も短期行動認識に対する感度;(3) 伝統的な特徴量ベースモデルよりも大幅に進歩した長期ビデオ理解能力;(4) 他のモダリティとの互換性があり、マルチモーダル環境での堅牢性を示しています。これらの独自の利点を通じて、VideoMambaはビデオ理解分野における新たな基準を設定し、包括的なビデオ理解のためにスケーラブルかつ効率的な解決策を提供しています。すべてのコードとモデルは https://github.com/OpenGVLab/VideoMamba で公開されています。