Frage-instruierte visuelle Beschreibungen für zero-shot Video-Frage-Antwort-Systeme

Wir präsentieren Q-ViD, einen einfachen Ansatz für die Video-Fragebeantwortung (Video QA), der sich im Gegensatz zu früheren Methoden, die auf komplexen Architekturen, rechenintensiven Pipelines oder geschlossenen Modellen wie GPTs basieren, auf ein einzelnes instruktionsfähiges, offenes Vision-Language-Modell (InstructBLIP) stützt, um VideoQA mithilfe von Frame-Beschreibungen zu lösen. Konkret erstellen wir Captioning-Instruktionen, die auf den Zielfragen zu den Videos basieren, und nutzen InstructBLIP, um für einzelne Videobilder relevante, task-spezifische Beschreibungen zu generieren. Anschließend bilden wir eine Gesamtbeschreibung des Videos unter Verwendung der frageabhängigen Frame-Beschreibungen und übergeben diese Information zusammen mit einer Frage-Antwort-Instruktion an ein großes Sprachmodell (LLM). Das LLM fungiert dabei als unser Schluss-Reasoning-Modul und führt den finalen Schritt der Multiple-Choice-Fragebeantwortung durch. Unser einfaches Q-ViD-Framework erreicht auf einer Vielzahl unterschiedlicher VideoQA-Benchmarks, darunter NExT-QA, STAR, How2QA, TVQA und IntentQA, Leistungen, die mit oder sogar über denen aktueller State-of-the-Art-Modelle liegen.