HyperAIHyperAI
vor einem Monat

TVQA: Lokalisierte, kompositionale Video-Fragebeantwortung

Jie Lei; Licheng Yu; Mohit Bansal; Tamara L. Berg
TVQA: Lokalisierte, kompositionale Video-Fragebeantwortung
Abstract

In den letzten Jahren hat sich das Interesse an bildbasierten Frage-Antwort-(QA)-Aufgaben stetig erhöht. Aufgrund von Datenlimitierungen gab es jedoch bisher deutlich weniger Arbeiten zu video-basierten QA-Aufgaben. In dieser Arbeit stellen wir TVQA vor, einen umfangreichen Video-QA-Datensatz, der auf sechs beliebten Fernsehserien basiert. TVQA umfasst 152.545 QA-Paare aus 21.793 Clips, die insgesamt über 460 Stunden Video abdecken. Die Fragen sind so gestaltet, dass sie eine zusammengesetzte Natur aufweisen und Systeme dazu veranlassen, relevante Momente innerhalb eines Clips zu lokalisieren, textbasierte Dialoge zu verstehen und relevante visuelle Konzepte zu erkennen. Wir liefern Analysen dieses neuen Datensatzes sowie mehrere Baseline-Modelle und ein mehrstrangiges neuronales Netzwerkframework, das von Anfang bis Ende trainiert werden kann, für die TVQA-Aufgabe. Der Datensatz ist öffentlich zugänglich unter http://tvqa.cs.unc.edu.