HyperAIHyperAI

Command Palette

Search for a command to run...

TVQA+: Raum-Zeitliche Verankerung für Video-Fragebeantwortung

Jie Lei Licheng Yu Tamara L. Berg Mohit Bansal

Zusammenfassung

Wir stellen die Aufgabe des räumlich-zeitlichen Video-Fragebeantwortens (Spatio-Temporal Video Question Answering) vor, die intelligente Systeme dazu verpflichtet, relevante Momente simultan zu extrahieren und auf visuelle Konzepte (Menschen und Objekte) zu verweisen, um natürlichsprachliche Fragen zu Videos zu beantworten. Zunächst erweitern wir den TVQA-Datensatz um 310.800 Bounding Boxes, die dargestellte Objekte mit visuellen Konzepten in Fragen und Antworten verknüpfen. Diese erweiterte Version nennen wir TVQA+. Anschließend schlagen wir STAGE (Spatio-Temporal Answerer with Grounded Evidence) vor, ein einheitliches Framework, das Beweise sowohl im räumlichen als auch im zeitlichen Bereich grundlagt, um Fragen zu Videos zu beantworten. Umfassende Experimente und Analysen zeigen die Effektivität unseres Frameworks sowie, wie die reichhaltigen Annotationen in unserem TVQA+-Datensatz zur Fragebeantwortung beitragen können. Darüber hinaus ist unser Modell durch die Durchführung dieser kombinierten Aufgabe in der Lage, aufschlussreiche und interpretierbare räumlich-zeitliche Aufmerksamkeitsvisualisierungen zu erzeugen. Der Datensatz und der Code sind öffentlich verfügbar unter: http://tvqa.cs.unc.edu, https://github.com/jayleicn/TVQAplus.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp