ActivityNet-QA: Ein Datensatz zur Verständnis komplexer Web-Videos durch Frage-Antwort-Systeme

Neuere Entwicklungen im Bereich der Modellierung von Sprache und Vision wurden erfolgreich auf die Bildfragebeantwortung angewendet. Es ist sowohl entscheidend als auch natürlich, diese Forschungsrichtung auf den Videobereich zu erweitern, um Video-Fragebeantwortung (VideoQA) zu verbessern. Im Gegensatz zum Bildbereich, in dem große und vollständig annotierte Benchmark-Datensätze existieren, sind VideoQA-Datensätze auf kleine Größen begrenzt und werden automatisch generiert usw. Diese Einschränkungen begrenzen ihre praktische Anwendbarkeit. Hier stellen wir ActivityNet-QA vor, einen vollständig annotierten und großen VideoQA-Datensatz. Der Datensatz besteht aus 58.000 Frage-Antwort-Paaren zu 5.800 komplexen Web-Videos, die aus dem bekannten ActivityNet-Datensatz abgeleitet wurden. Wir präsentieren eine statistische Analyse unseres ActivityNet-QA-Datensatzes und führen umfangreiche Experimente damit durch, indem wir existierende VideoQA-Baselines vergleichen. Darüber hinaus untersuchen wir verschiedene Videodarstellungsstrategien, um die Leistung der VideoQA zu verbessern, insbesondere für lange Videos. Der Datensatz ist unter https://github.com/MILVLG/activitynet-qa verfügbar.