Command Palette
Search for a command to run...
Ensemble De Données De Reconnaissance d'actions AVA
Date
Taille
URL de publication
URL du document
Licence
CC BY 4.0
Balises

AVA, abréviation de Atomic Visual Actions, est un ensemble de données vidéo avec des annotations audiovisuelles conçues pour former les robots à comprendre les activités humaines. Chaque clip vidéo est annoté en détail par des annotateurs, reflétant les diverses scènes, conditions d'enregistrement et expressions des activités humaines.
Les annotations de l'ensemble de données incluent :
- Cinétique (AVA-Kinetics) : C'est un croisement entre AVA et Kinetics. Afin de fournir des étiquettes d'action localisées sur une plus large gamme de scènes visuelles, les auteurs fournissent des étiquettes d'action AVA sur les vidéos Kinetics-700, doublant presque le nombre total d'annotations et augmentant le nombre de vidéos de certaines catégories spécifiques de plus de 500 fois.
- Actions (AvA-Actions) : L'ensemble de données AVA annote de manière dense 80 actions visuelles atomiques dans 430 clips vidéo de 15 minutes. Ces actions sont localisées dans l’espace et le temps, générant 1,62 million d’étiquettes d’actions, dont un grand nombre sont fréquemment utilisées.
- Activité parlée (AVA ActiveSpeaker, AVA Speech) : AVA ActiveSpeaker associe les sons et les visages visibles dans les vidéos AVA v1.0, ce qui donne 3,65 millions d'images étiquetées avec environ 39 000 visages. AVA Speech annote de manière dense l'activité vocale dans les vidéos AVA v1.0 et annote explicitement 3 conditions de bruit de fond, ce qui donne environ 4 600 clips annotés couvrant 45 heures.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.