HyperAIHyperAI

Command Palette

Search for a command to run...

ActivityNet-QA: Ein Datensatz zur Verständnis komplexer Web-Videos durch Frage-Antwort-Systeme

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao

Zusammenfassung

Neuere Entwicklungen im Bereich der Modellierung von Sprache und Vision wurden erfolgreich auf die Bildfragebeantwortung angewendet. Es ist sowohl entscheidend als auch natürlich, diese Forschungsrichtung auf den Videobereich zu erweitern, um Video-Fragebeantwortung (VideoQA) zu verbessern. Im Gegensatz zum Bildbereich, in dem große und vollständig annotierte Benchmark-Datensätze existieren, sind VideoQA-Datensätze auf kleine Größen begrenzt und werden automatisch generiert usw. Diese Einschränkungen begrenzen ihre praktische Anwendbarkeit. Hier stellen wir ActivityNet-QA vor, einen vollständig annotierten und großen VideoQA-Datensatz. Der Datensatz besteht aus 58.000 Frage-Antwort-Paaren zu 5.800 komplexen Web-Videos, die aus dem bekannten ActivityNet-Datensatz abgeleitet wurden. Wir präsentieren eine statistische Analyse unseres ActivityNet-QA-Datensatzes und führen umfangreiche Experimente damit durch, indem wir existierende VideoQA-Baselines vergleichen. Darüber hinaus untersuchen wir verschiedene Videodarstellungsstrategien, um die Leistung der VideoQA zu verbessern, insbesondere für lange Videos. Der Datensatz ist unter https://github.com/MILVLG/activitynet-qa verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ActivityNet-QA: Ein Datensatz zur Verständnis komplexer Web-Videos durch Frage-Antwort-Systeme | Paper | HyperAI