VideoMamba: Zustandsraummodell für effizientes Video-Verständnis

Um die doppelten Herausforderungen lokaler Redundanz und globaler Abhängigkeiten im Bereich der Videoanalyse anzugehen, wird in dieser Arbeit die Mamba innovativ für den Videobereich angepasst. Das vorgeschlagene VideoMamba überwindet die Einschränkungen bestehender 3D-Faltungsschicht-Neuronale Netze und Video-Transformer. Sein linear komplexer Operator ermöglicht eine effiziente Langzeitmodellierung, was für die Analyse hochaufgelöster langer Videos entscheidend ist. Umfangreiche Evaluierungen zeigen vier Kernfähigkeiten von VideoMamba: (1) Skalierbarkeit im visuellen Bereich ohne umfangreiches Datensatz-Vortraining, dank einer neuen Selbst-Distillations-Technik; (2) Empfindlichkeit bei der Erkennung kurzfristiger Aktionen auch bei feinkörnigen Bewegungsunterschieden; (3) Überlegenheit in der Langzeit-Videoanalyse, wobei es erhebliche Fortschritte gegenüber traditionellen feature-basierten Modellen zeigt; und (4) Kompatibilität mit anderen Modalitäten, was seine Robustheit in multimodalen Kontexten unterstreicht. Durch diese einzigartigen Vorteile setzt VideoMamba einen neuen Standard für die Videoanalyse und bietet eine skalierbare und effiziente Lösung für umfassende Videoanalysen. Der gesamte Code und die Modelle sind unter https://github.com/OpenGVLab/VideoMamba verfügbar.