Command Palette
Search for a command to run...
Ensemble De Données De Reconnaissance d'actions AVA
Date
Size
Publish URL
Paper URL
License
CC BY 4.0

AVA, abréviation de Atomic Visual Actions, est un ensemble de données vidéo avec des annotations audiovisuelles conçues pour former les robots à comprendre les activités humaines. Chaque clip vidéo est annoté en détail par des annotateurs, reflétant les diverses scènes, conditions d'enregistrement et expressions des activités humaines.
Les annotations de l'ensemble de données incluent :
- Cinétique (AVA-Kinetics) : C'est un croisement entre AVA et Kinetics. Afin de fournir des étiquettes d'action localisées sur une plus large gamme de scènes visuelles, les auteurs fournissent des étiquettes d'action AVA sur les vidéos Kinetics-700, doublant presque le nombre total d'annotations et augmentant le nombre de vidéos de certaines catégories spécifiques de plus de 500 fois.
- Actions (AvA-Actions) : L'ensemble de données AVA annote de manière dense 80 actions visuelles atomiques dans 430 clips vidéo de 15 minutes. Ces actions sont localisées dans l’espace et le temps, générant 1,62 million d’étiquettes d’actions, dont un grand nombre sont fréquemment utilisées.
- Activité parlée (AVA ActiveSpeaker, AVA Speech) : AVA ActiveSpeaker associe les sons et les visages visibles dans les vidéos AVA v1.0, ce qui donne 3,65 millions d'images étiquetées avec environ 39 000 visages. AVA Speech annote de manière dense l'activité vocale dans les vidéos AVA v1.0 et annote explicitement 3 conditions de bruit de fond, ce qui donne environ 4 600 clips annotés couvrant 45 heures.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.