HyperAI

TVQA-Datensatz Zur Beantwortung Von Videofragen

Download-Hilfe
特色图像

Der TVQA-Datensatz ist ein umfangreicher Datensatz mit Fragen und Antworten zu Videos, dessen Videos aus sechs klassischen amerikanischen Fernsehserien stammen. Der Datensatz enthält etwa 152,5.000 Frage-Antwort-Paare aus 21,8.000 Videoclips mit einer Länge von 60–90 Sekunden und einer Gesamtlänge von mehr als 460 Stunden. Diese Frage-Antwort-Paare werden in den Trainings-, Validierungs- und Test-Sets im Verhältnis 8:1:1 verwendet.

Die Fragen im TVQA-Datensatz sind kombiniert gestaltet und umfassen zwei Teile: Fragenbeantwortung und Lokalisierung, und jede Frage verfügt über eine zeitliche Lokalisierung. Um solche Fragen beantworten zu können, muss das Modell über ein gewisses Maß an zeitlicher Lokalisierung verfügen und Dialoge (Untertitel) und Videos (Video) verstehen können.