HyperAIHyperAI

Command Palette

Search for a command to run...

TVQA: Lokalisierte, kompositionale Video-Fragebeantwortung

Jie Lei Licheng Yu Mohit Bansal Tamara L. Berg

Zusammenfassung

In den letzten Jahren hat sich das Interesse an bildbasierten Frage-Antwort-(QA)-Aufgaben stetig erhöht. Aufgrund von Datenlimitierungen gab es jedoch bisher deutlich weniger Arbeiten zu video-basierten QA-Aufgaben. In dieser Arbeit stellen wir TVQA vor, einen umfangreichen Video-QA-Datensatz, der auf sechs beliebten Fernsehserien basiert. TVQA umfasst 152.545 QA-Paare aus 21.793 Clips, die insgesamt über 460 Stunden Video abdecken. Die Fragen sind so gestaltet, dass sie eine zusammengesetzte Natur aufweisen und Systeme dazu veranlassen, relevante Momente innerhalb eines Clips zu lokalisieren, textbasierte Dialoge zu verstehen und relevante visuelle Konzepte zu erkennen. Wir liefern Analysen dieses neuen Datensatzes sowie mehrere Baseline-Modelle und ein mehrstrangiges neuronales Netzwerkframework, das von Anfang bis Ende trainiert werden kann, für die TVQA-Aufgabe. Der Datensatz ist öffentlich zugänglich unter http://tvqa.cs.unc.edu.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
TVQA: Lokalisierte, kompositionale Video-Fragebeantwortung | Paper | HyperAI