HyperAIHyperAI
il y a 2 mois

Quo vadis, la reconnaissance d'actions ? Un nouveau modèle et le jeu de données Kinetics

Joao Carreira; Andrew Zisserman
Quo vadis, la reconnaissance d'actions ? Un nouveau modèle et le jeu de données Kinetics
Résumé

La rareté de vidéos dans les ensembles de données actuels pour la classification d'actions (UCF-101 et HMDB-51) a rendu difficile l'identification de bonnes architectures vidéo, car la plupart des méthodes obtiennent des performances similaires sur les petits ensembles de référence existants. Cet article réévalue les architectures de pointe à la lumière du nouveau jeu de données Kinetics Human Action Video. Kinetics contient deux ordres de grandeur plus de données, avec 400 classes d'actions humaines et plus de 400 clips par classe, collectées à partir de vidéos YouTube réalistes et complexes. Nous fournissons une analyse sur la façon dont les architectures actuelles se comportent pour la tâche de classification d'actions dans ce jeu de données et sur l'amélioration des performances dans les ensembles de référence plus petits après un pré-entraînement sur Kinetics.Nous introduisons également un nouveau modèle Two-Stream Inflated 3D ConvNet (I3D) basé sur l'inflation des ConvNets 2D : les filtres et noyaux de regroupement des ConvNets très profonds pour la classification d'images sont étendus en trois dimensions, permettant ainsi d'apprendre des extracteurs de caractéristiques spatio-temporelles fluides à partir de vidéos tout en tirant parti des conceptions d'architecture réussies d'ImageNet et même de leurs paramètres. Nous montrons que, après un pré-entraînement sur Kinetics, les modèles I3D améliorent considérablement l'état de l'art en classification d'actions, atteignant 80,9% sur HMDB-51 et 98,0% sur UCF-101.