LongVU: Raumzeitliche adaptive Kompression für die Verarbeitung langer Video-Sprach-Interaktionen

Multimodale Large Language Models (MLLMs) haben vielversprechende Fortschritte bei der Verarbeitung und Analyse von Videoinhalten erzielt. Die Verarbeitung langer Videos stellt jedoch weiterhin eine erhebliche Herausforderung dar, die durch die Kontextgröße der LLMs begrenzt ist. Um diese Einschränkung zu überwinden, schlagen wir LongVU vor, ein räumlich-zeitliches adaptives Kompressionsverfahren, das die Anzahl der Videotoken reduziert, während es die visuellen Details langer Videos beibehält. Unser Ansatz basiert auf der Nutzung von kreuzmodalen Abfragen und inter-frame Abhängigkeiten zur adaptiven Reduktion zeitlicher und räumlicher Redundanzen in Videos. Insbesondere nutzen wir DINOv2-Features, um redundante Frames mit hoher Ähnlichkeit zu entfernen. Danach verwenden wir textgesteuerte kreuzmodale Abfragen zur selektiven Reduktion von Frame-Features. Zudem führen wir eine räumliche Tokenreduktion über Frames hinweg durch, basierend auf ihren zeitlichen Abhängigkeiten. Unsere adaptive Kompressionsstrategie verarbeitet effektiv eine große Anzahl von Frames mit minimalen visuellen Informationsverlust innerhalb der gegebenen Kontextlänge. Unser LongVU übertreffen konsistent bestehende Methoden in verschiedenen Videoverstehensbenchmarks, insbesondere bei Aufgaben zur Verarbeitung von Stundenlangen Videos wie VideoMME und MLVU. Auch bei einer leichten LLM skaliert unser LongVU effektiv auf kleinere Größen mit Spitzenleistungen im Videoverstehen.