BIMBA: Selektiv-Scan-Kompression für die Long-Range-Video-Fragebeantwortung

Die Video-Fragebeantwortung (Video Question Answering, VQA) in langen Videos stellt die zentrale Herausforderung dar, relevante Informationen zu extrahieren und langreichweitige Abhängigkeiten aus einer großen Anzahl redundanter Frames zu modellieren. Die Selbst-Attention-Mechanismen bieten eine allgemeine Lösung für die Sequenzmodellierung, sind jedoch bei der Anwendung auf eine große Menge von räumlich-zeitlichen Tokens in langen Videos mit prohibitiv hohen Kosten verbunden. Die meisten vorherigen Ansätze setzen auf Kompressionsstrategien, um die Berechnungskosten zu senken, beispielsweise durch sparsames Frame-Sampling zur Reduzierung der Eingabedauer oder durch Raum-Zeit-Pooling zur Kompression der Ausgabesequenz, die an den großen Sprachmodell (Large Language Model, LLM) weitergeleitet wird. Diese naiven Ansätze führen jedoch zu einer Überrepräsentation redundanter Informationen und verpassen oft auffällige Ereignisse oder schnell auftretende räumlich-zeitliche Muster. In dieser Arbeit stellen wir BIMBA vor – ein effizientes Zustandsraummodell zur Verarbeitung langer Videos. Unser Modell nutzt den selektiven Scan-Algorithmus, um effektiv kritische Informationen aus hochdimensionalen Videos zu extrahieren und diese in eine kompakte Tokensequenz zu transformieren, die effizient für die Verarbeitung durch ein LLM genutzt werden kann. Umfangreiche Experimente zeigen, dass BIMBA die derzeit beste Genauigkeit auf mehreren Benchmark-Datenbanken für langformige VQA erzielt, darunter PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench und Video-MME. Der Quellcode sowie die Modelle sind öffentlich unter https://sites.google.com/view/bimba-mllm verfügbar.