HyperAIHyperAI
il y a un mois

ActivityNet-QA : Un jeu de données pour comprendre les vidéos web complexes par le biais du questionnement et de la réponse

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao
ActivityNet-QA : Un jeu de données pour comprendre les vidéos web complexes par le biais du questionnement et de la réponse
Résumé

Les récentes avancées dans la modélisation du langage et de la vision ont été appliquées avec succès à la réponse aux questions sur les images. Il est à la fois crucial et naturel d'étendre cette orientation de recherche au domaine vidéo pour la réponse aux questions sur les vidéos (VideoQA). Comparé au domaine des images, où existent des jeux de données de référence annotés à grande échelle, les jeux de données VideoQA sont limités à une petite échelle et sont généralement générés automatiquement. Ces limitations restreignent leur applicabilité en pratique. Nous présentons ici ActivityNet-QA, un jeu de données VideoQA à grande échelle et entièrement annoté. Ce jeu de données comprend 58 000 paires question-réponse sur 5 800 vidéos complexes issues du populaire ensemble de données ActivityNet. Nous fournissons une analyse statistique détaillée de notre jeu de données ActivityNet-QA et menons des expériences approfondies en le comparant avec les méthodes de base existantes pour VideoQA. De plus, nous explorons diverses stratégies de représentation vidéo afin d'améliorer les performances en VideoQA, notamment pour les vidéos longues. Le jeu de données est disponible à l'adresse suivante : https://github.com/MILVLG/activitynet-qa