Machine d'Action : Réflexion sur la Reconnaissance des Actions dans les Vidéos Tronquées

Les méthodes existantes en reconnaissance d'actions dans les vidéos ne distinguent généralement pas le corps humain de l'environnement et ont tendance à surapprendre les scènes et les objets. Dans ce travail, nous présentons un cadre conceptuellement simple, général et performant pour la reconnaissance d'actions dans des vidéos tronquées, visant une modélisation centrée sur la personne. La méthode, appelée Action Machine, prend en entrée des vidéos découpées par des boîtes englobantes de personnes. Elle étend le réseau neuronal convolutif 3D infléchi (Inflated 3D ConvNet ou I3D) en ajoutant une branche pour l'estimation de la posture humaine et un CNN 2D pour la reconnaissance d'actions basée sur la posture, offrant ainsi une formation et un test rapides. L'Action Machine peut bénéficier de l'entraînement multitâche pour la reconnaissance d'actions et l'estimation de postures, ainsi que de la fusion des prédictions issues des images RGB et des postures. Sur le dataset NTU RGB-D, l'Action Machine atteint des performances de pointe avec des précisions en tête de 97,2 % et 94,3 % respectivement pour les évaluations inter-vues et inter-sujets. L'Action Machine obtient également des performances compétitives sur trois autres datasets plus petits de reconnaissance d'actions : Northwestern UCLA Multiview Action3D, MSR Daily Activity3D et UTD-MHAD. Le code sera rendu disponible.