Une Brève Note sur Kinetics-600

Nous décrivons une extension du jeu de données DeepMind Kinetics d'actions humaines, qui passe de 400 classes, chacune comportant au moins 400 clips vidéo, à 600 classes, chacune contenant au moins 600 clips vidéo. Pour augmenter l'échelle du jeu de données, nous avons modifié le processus de collecte de données afin qu'il utilise plusieurs requêtes par classe, certaines de ces requêtes étant formulées dans une langue autre que l'anglais – le portugais. Cet article détaille les modifications entre les deux versions du jeu de données et inclut un ensemble complet de statistiques concernant la nouvelle version ainsi que des résultats de référence obtenus en utilisant l'architecture de réseau neuronal I3D. L'article accompagne la publication des étiquettes vérité terrain pour l'ensemble de test public.