vor 6 Monaten

Zusammenfassung

Wir schlagen vor, null-Schritt-Fragen zu Videos zu beantworten, indem kurze prozedurale Programme generiert werden, die eine endgültige Antwort erzeugen, indem sie eine Folge visueller Teilaufgaben lösen. Wir stellen Procedural Video Querying (ProViQ) vor, das einen großen Sprachmodell nutzt, um solche Programme aus einer Eingabefrage und einer API visueller Module im Prompt zu generieren, die anschließend ausgeführt werden, um das Ergebnis zu erzielen. Relevante prozedurale Ansätze aus der jüngeren Vergangenheit haben sich für die Bildfragebeantwortung als erfolgreich erwiesen, doch Videos bleiben herausfordernd: Wir stellen ProViQ Module zur Videoverstehensbereit, die es ihm ermöglichen, sich auf eine breite Vielfalt von Videos zu generalisieren. Dieser Codegenerierungsansatz ermöglicht zudem, dass ProViQ neben der Fragebeantwortung auch andere Videoaufgaben ausführt, wie beispielsweise die Mehrobjektverfolgung oder grundlegende Videobearbeitung. ProViQ erreicht state-of-the-art-Ergebnisse auf einer Vielzahl unterschiedlicher Benchmarks, wobei die Leistung um bis zu 25 % gegenüber bestehenden Ansätzen auf kurzen, langen, offenen und multimodalen Datensätzen zur Videofragebeantwortung verbessert wird. Die Projektseite finden Sie unter https://rccchoudhury.github.io/proviq2023.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Videobearbeitung

Intelligente Fragebeantwortung

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Visuelle Fragebeantwortung

Videobearbeitung

Intelligente Fragebeantwortung

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Zero-Shot Video Fragebeantwortung mit prozeduralen Programmen

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zero-Shot Video Fragebeantwortung mit prozeduralen Programmen

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Zero-Shot Video Fragebeantwortung mit prozeduralen Programmen

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters