HyperAIHyperAI
vor 2 Monaten

Selbstverkettetes Bild-Sprach-Modell für Video-Lokalisierung und Fragebeantwortung

Shoubin Yu; Jaemin Cho; Prateek Yadav; Mohit Bansal
Selbstverkettetes Bild-Sprach-Modell für Video-Lokalisierung und Fragebeantwortung
Abstract

Neuere Studien haben vielversprechende Ergebnisse bei der Nutzung großer vortrainierter Bild-Sprach-Modelle für die Video-Fragebeantwortung gezeigt. Obwohl diese Bild-Sprach-Modelle die Repräsentationslernen von Video-Sprach-Modellen effizient unterstützen können, fügen sie in der Regel gleichmäßig ausgewählte Videobilder als visuelle Eingaben hinzu, ohne explizite sprachbewusste, zeitliche Modellierung. Wenn nur ein Teil des Videoeingangs relevant für die Sprachanfrage ist, kann eine solche gleichmäßige Bildauswahl oft wichtige visuelle Hinweise verpassen. Obwohl Menschen oft einen bestimmten Videomoment auswählen und diesen Moment zurückspulen, um Fragen zu beantworten, erfordert das Training eines anfragebewussten Video-Moment-Lokalisators in der Regel teure Annotationen und hohe Rechenkosten. Um dieses Problem anzugehen, schlagen wir das Framework „Self-Chained Video Localization-Answering“ (SeViLA) vor, eine neuartige Methode, die ein einzelnes Bild-Sprach-Modell (BLIP-2) nutzt, um sowohl die zeitliche Lokalisierung von Schlüsselbildern als auch die Fragebeantwortung auf Videos zu bewältigen. Das SeViLA-Framework besteht aus zwei Modulen: dem Lokalisateur und dem Antwortgenerator, wobei beide effizient von BLIP-2 feinjustiert werden. Wir schlagen zwei Methoden vor, um diese Module für kaskadierte Inferenz und Selbstverfeinerung zu verkoppeln. Erstens im Vorwärtskoppeln identifiziert der Lokalisateur mehrere sprachbewusste Schlüsselbilder in einem Video, die der Antwortgenerator verwendet, um die Antwort vorherzusagen. Zweitens im Rückwärtskoppeln generiert der Antwortgenerator Pseudolabels für Schlüsselbilder, um den Lokalisateur zu verfeinern und so den Bedarf an teuren Annotationen für die Video-Moment-Lokalisierung zu reduzieren. Unser SeViLA-Framework übertrifft mehrere starke Baseline-Methoden auf fünf anspruchsvollen Benchmarks für Video-Fragebeantwortung und Ereignisvorhersage und erreicht den Stand der Technik sowohl in den Feinjustierungs- (NExT-QA, STAR) als auch in den Zero-Shot-Einstellungen (NExT-QA, STAR, How2QA, VLEP). Wir analysieren außerdem den Einfluss des Lokalisors sowie Vergleiche des Lokalisors mit anderen zeitlichen Lokalisierungsmodellen, das Vortrainieren/Selbstverfeinern des Lokalisors und das Variieren der Anzahl von Schlüsselbildern.

Selbstverkettetes Bild-Sprach-Modell für Video-Lokalisierung und Fragebeantwortung | Neueste Forschungsarbeiten | HyperAI