Ein Bildgitter kann einem Video entsprechen: Zero-Shot-Videofragebeantwortung mit einem VLM

Angeregt durch die fortschrittlichen Schließungsfähigkeiten der neuesten großen Sprachmodelle (LLMs), wurden verschiedene Strategien zur Brückenschlagung zwischen Video-Modalen entwickelt. Eine vorherrschende Strategie beinhaltet Videobasismodelle (VideoLMs), die eine lernfähige Schnittstelle mit Videodaten trainieren, um fortgeschrittene visuelle Encoder mit LLMs zu verbinden. Kürzlich ist eine alternative Strategie aufgetaucht, die leicht verfügbare Basismodelle, wie VideoLMs und LLMs, über mehrere Stufen für die Modalenbrückenschlagung einsetzt. In dieser Studie stellen wir eine einfache, aber neuartige Strategie vor, bei der nur ein einzelnes Visuelles Sprachmodell (VLM) verwendet wird. Unser Ausgangspunkt ist die klare Erkenntnis, dass ein Video eine Reihe von Bildern oder Frames darstellt, die mit zeitlicher Information verzahnt sind. Das Wesen des Videoverstehens liegt in der geschickten Verwaltung der zeitlichen Aspekte zusammen mit den räumlichen Details jedes Frames. Zunächst transformieren wir ein Video in ein einzelnes kompositives Bild, indem wir mehrere Frames in einem Rasterlayout anordnen. Das resultierende einzelne Bild wird als Bildraster bezeichnet. Dieses Format behält zwar das Erscheinungsbild eines einzigen Bildes bei, speichert jedoch effektiv zeitliche Informationen innerhalb der Rasterstruktur. Somit ermöglicht der Ansatz des Bildrasters die direkte Anwendung eines einzelnen hochleistungsfähigen VLMs ohne jegliche Trainingsdaten für Videos zu erfordern. Unsere umfangreiche experimentelle Analyse an zehn Benchmarks für zero-shot-Videofragenbeantwortung, einschließlich fünf offenen und fünf multiple-Choice-Benchmarks, zeigt, dass das vorgeschlagene Image Grid Vision Language Model (IG-VLM) in neun von zehn Benchmarks den bestehenden Methoden überlegen ist.