VideoGPT+: Integration von Bild- und Videokodierern für verbessertes Videoverstehen

Aufbauend auf den Fortschritten im Bereich der Sprachmodelle haben große multimodale Modelle (LMMs) erhebliche Verbesserungen bei der Videoverarbeitung geleistet. Obwohl die aktuellen Video-LMMs fortschrittliche große Sprachmodelle (LLMs) nutzen, stützen sie sich entweder auf Bild- oder Videokodierer zur Verarbeitung visueller Eingaben, wobei jeder dieser Ansätze seine eigenen Einschränkungen hat. Bildkodierer sind darin hervorragend, reichhaltige räumliche Details aus Folgen von Frames zu erfassen, aber sie vermissen expliziten zeitlichen Kontext, der in Videos mit komplexen Aktionssequenzen von Bedeutung sein kann. Videokodierer hingegen bieten zeitlichen Kontext, sind jedoch oft durch rechnerische Beschränkungen eingeschränkt, die dazu führen, dass nur spärlich verteilte Frames in niedriger Auflösung verarbeitet werden, was wiederum zu einer verringerten kontextuellen und räumlichen Verständnisfähigkeit führt. Aus diesem Grund stellen wir VideoGPT+ vor, das die ergänzenden Vorteile des Bildkodierers (für detailliertes räumliches Verständnis) und des Videokodierers (für globales zeitliches Kontextmodellierung) kombiniert. Das Modell verarbeitet Videos, indem es sie in kleinere Segmente unterteilt und eine adaptive Pooling-Strategie auf die durch beide Kodierer extrahierten Merkmale anwendet. Unsere Architektur zeigt verbesserte Leistungen bei mehreren Video-Benchmarks, einschließlich VCGBench, MVBench und Zero-Shot-Fragebeantwortung. Darüber hinaus entwickeln wir einen 112K großen Video-Anweisungsdatensatz mithilfe eines neuartigen halbautomatischen Annotationpipelines, der die Leistung des Modells weiter verbessert. Zudem präsentieren wir VCGBench-Diverse zur umfassenden Bewertung von Video-LMMs; dieser Benchmark umfasst 18 breite Videokategorien wie Lebensstil, Sport, Wissenschaft, Gaming und Überwachungsvideos. Mit 4.354 Frage-Antwort-Paaren bewertet dieser Benchmark die Generalisierungsfähigkeit bestehender LMMs bei dichtem Video-Captioning, räumlichem und zeitlichem Verständnis sowie komplexer Schlussfolgerungen, um eine umfassende Bewertung über verschiedene Videotypen und Dynamiken hinweg sicherzustellen.Code: https://github.com/mbzuai-oryx/VideoGPT-plus.