Reconnaissance d’actions sensible à la pose et aux articulations

Les progrès récents en reconnaissance d’actions se sont principalement concentrés sur les caractéristiques RGB et le flux optique. Dans cet article, nous abordons le problème de la reconnaissance d’actions basée sur les articulations. Contrairement à d'autres modalités, la configuration des articulations et leur mouvement génèrent des modèles contenant des informations humaines de mouvement succinctes, particulièrement adaptées à la reconnaissance d’activités. Nous proposons un nouveau modèle pour la reconnaissance d’actions basée sur les articulations, qui extrait d’abord des caractéristiques de mouvement pour chaque articulation séparément via un encodeur de mouvement partagé, avant d’effectuer un raisonnement collectif. Notre module de sélection d’articulations répèse les informations des articulations afin de sélectionner celles qui sont les plus discriminantes pour la tâche. Nous introduisons également une nouvelle fonction de perte par contraste entre articulations, qui rassemble les groupes de caractéristiques d’articulations associées à la même action. Nous renforçons les représentations basées sur les articulations en utilisant une technique d’augmentation de données sensible à la géométrie, qui introduit des perturbations contrôlées sur les cartes de chaleur de posture tout en préservant la dynamique de l’action. Nous démontrons des améliorations significatives par rapport aux approches les plus avancées actuelles sur les jeux de données JHMDB, HMDB, Charades et AVA pour la reconnaissance d’actions. Une fusion tardive avec des approches basées sur RGB et le flux optique apporte des gains supplémentaires. En outre, notre modèle surpasse également la méthode de référence existante sur Mimetics, un jeu de données comprenant des actions hors contexte.