Zero-Shot Video Fragebeantwortung mit prozeduralen Programmen

Wir schlagen vor, null-Schritt-Fragen zu Videos zu beantworten, indem kurze prozedurale Programme generiert werden, die eine endgültige Antwort erzeugen, indem sie eine Folge visueller Teilaufgaben lösen. Wir stellen Procedural Video Querying (ProViQ) vor, das einen großen Sprachmodell nutzt, um solche Programme aus einer Eingabefrage und einer API visueller Module im Prompt zu generieren, die anschließend ausgeführt werden, um das Ergebnis zu erzielen. Relevante prozedurale Ansätze aus der jüngeren Vergangenheit haben sich für die Bildfragebeantwortung als erfolgreich erwiesen, doch Videos bleiben herausfordernd: Wir stellen ProViQ Module zur Videoverstehensbereit, die es ihm ermöglichen, sich auf eine breite Vielfalt von Videos zu generalisieren. Dieser Codegenerierungsansatz ermöglicht zudem, dass ProViQ neben der Fragebeantwortung auch andere Videoaufgaben ausführt, wie beispielsweise die Mehrobjektverfolgung oder grundlegende Videobearbeitung. ProViQ erreicht state-of-the-art-Ergebnisse auf einer Vielzahl unterschiedlicher Benchmarks, wobei die Leistung um bis zu 25 % gegenüber bestehenden Ansätzen auf kurzen, langen, offenen und multimodalen Datensätzen zur Videofragebeantwortung verbessert wird. Die Projektseite finden Sie unter https://rccchoudhury.github.io/proviq2023.