HyperAIHyperAI

Command Palette

Search for a command to run...

Zero-Shot Video Fragebeantwortung mit prozeduralen Programmen

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

Zusammenfassung

Wir schlagen vor, null-Schritt-Fragen zu Videos zu beantworten, indem kurze prozedurale Programme generiert werden, die eine endgültige Antwort erzeugen, indem sie eine Folge visueller Teilaufgaben lösen. Wir stellen Procedural Video Querying (ProViQ) vor, das einen großen Sprachmodell nutzt, um solche Programme aus einer Eingabefrage und einer API visueller Module im Prompt zu generieren, die anschließend ausgeführt werden, um das Ergebnis zu erzielen. Relevante prozedurale Ansätze aus der jüngeren Vergangenheit haben sich für die Bildfragebeantwortung als erfolgreich erwiesen, doch Videos bleiben herausfordernd: Wir stellen ProViQ Module zur Videoverstehensbereit, die es ihm ermöglichen, sich auf eine breite Vielfalt von Videos zu generalisieren. Dieser Codegenerierungsansatz ermöglicht zudem, dass ProViQ neben der Fragebeantwortung auch andere Videoaufgaben ausführt, wie beispielsweise die Mehrobjektverfolgung oder grundlegende Videobearbeitung. ProViQ erreicht state-of-the-art-Ergebnisse auf einer Vielzahl unterschiedlicher Benchmarks, wobei die Leistung um bis zu 25 % gegenüber bestehenden Ansätzen auf kurzen, langen, offenen und multimodalen Datensätzen zur Videofragebeantwortung verbessert wird. Die Projektseite finden Sie unter https://rccchoudhury.github.io/proviq2023.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zero-Shot Video Fragebeantwortung mit prozeduralen Programmen | Paper | HyperAI