HyperAIHyperAI
vor 16 Tagen

Video Mamba Suite: Zustandsraummodell als vielseitige Alternative für die Videoverstehens

Guo Chen, Yifei Huang, Jilan Xu, Baoqi Pei, Zhe Chen, Zhiqi Li, Jiahao Wang, Kunchang Li, Tong Lu, Limin Wang
Video Mamba Suite: Zustandsraummodell als vielseitige Alternative für die Videoverstehens
Abstract

Das Verständnis von Videos ist eine zentrale Forschungsrichtung im Bereich des Computer Vision, wobei umfangreiche Bemühungen unternommen wurden, verschiedene Architekturen wie RNN, 3D-CNN und Transformers zu erforschen. Die neu vorgeschlagene Architektur des State-Space-Modells, beispielsweise Mamba, zeigt vielversprechende Eigenschaften, um ihren Erfolg bei der Modellierung langer Sequenzen auch auf die Videoverarbeitung auszuweiten. Um zu prüfen, ob Mamba eine tragfähige Alternative zu Transformers im Bereich der Videoverstehens ist, führen wir in dieser Arbeit eine umfassende Studie durch, in der wir verschiedene Rollen untersuchen, die Mamba bei der Modellierung von Videos übernehmen kann, sowie unterschiedliche Aufgaben, bei denen Mamba Vorteile zeigen könnte. Wir gliedern Mamba in vier verschiedene Rollen zur Video-Modellierung und leiten daraus eine Video-Mamba-Suite mit 14 Modellen bzw. Modulen ab, die wir auf 12 Aufgaben im Bereich des Videoverstehens evaluiert haben. Unsere umfangreichen Experimente zeigen das starke Potenzial von Mamba sowohl für rein video-basierte als auch für video-sprachbasierte Aufgaben und verdeutlichen vielversprechende Effizienz-Leistungs-Abwägungen. Wir hoffen, dass diese Arbeit wertvolle Datenpunkte und Erkenntnisse für zukünftige Forschungsarbeiten im Bereich des Videoverstehens liefert. Der Quellcode ist öffentlich zugänglich: https://github.com/OpenGVLab/video-mamba-suite.