HyperAIHyperAI
il y a 2 mois

AVA : Un Jeu de Données Vidéo d'Actions Visuelles Atomiques Localisées Spatiotemporellement

Chunhui Gu; Chen Sun; David A. Ross; Carl Vondrick; Caroline Pantofaru; Yeqing Li; Sudheendra Vijayanarasimhan; George Toderici; Susanna Ricco; Rahul Sukthankar; Cordelia Schmid; Jitendra Malik
AVA : Un Jeu de Données Vidéo d'Actions Visuelles Atomiques Localisées Spatiotemporellement
Résumé

Ce document présente un ensemble de données vidéo d'actions visuelles atomiques (AVA) localisées dans l'espace et le temps. L'ensemble de données AVA annotate de manière dense 80 actions visuelles atomiques dans 430 clips vidéo de 15 minutes, où les actions sont localisées spatialement et temporellement, ce qui donne lieu à 1,58 million d'étiquettes d'action, avec des étiquettes multiples par personne apparaissant fréquemment. Les caractéristiques clés de notre ensemble de données sont : (1) la définition d'actions visuelles atomiques plutôt que composites ; (2) des annotations spatio-temporelles précises avec potentiellement plusieurs annotations pour chaque personne ; (3) une annotation exhaustive de ces actions atomiques sur des clips vidéo de 15 minutes ; (4) des personnes liées temporellement entre des segments consécutifs ; et (5) l'utilisation de films pour recueillir une variété de représentations d'actions. Cela diffère des ensembles de données existants pour la reconnaissance d'actions spatio-temporelles, qui fournissent généralement des annotations peu nombreuses pour des actions composites dans des clips vidéo courts. Nous rendrons cet ensemble de données publiquement disponible.L'AVA, avec sa scène et sa complexité d'action réalistes, met en évidence la difficulté intrinsèque de la reconnaissance d'actions. Pour établir un point de référence, nous présentons une nouvelle approche pour la localisation d'actions qui s'appuie sur les méthodes actuellement au stade avancé et montre une meilleure performance sur les catégories JHMDB et UCF101-24. Bien que cette approche établisse un nouveau niveau de référence sur les ensembles de données existants, les résultats globaux sur AVA sont faibles, à seulement 15,6 % mAP, soulignant ainsi la nécessité de développer de nouvelles approches pour la compréhension vidéo.

AVA : Un Jeu de Données Vidéo d'Actions Visuelles Atomiques Localisées Spatiotemporellement | Articles de recherche récents | HyperAI