Sur les avantages de la posture 3D et du suivi pour la reconnaissance des actions humaines

Dans ce travail, nous étudions les avantages de l'utilisation des trajectoires et des poses 3D pour la reconnaissance d'actions. Pour ce faire, nous adoptons une approche lagrangienne pour analyser les actions le long d'une trajectoire du mouvement humain, plutôt que de les considérer à un point fixe dans l'espace. Cette perspective nous permet d'utiliser les tracklets des individus pour prédire leurs actions. Dans cette optique, nous démontrons d'abord les bénéfices de l'utilisation de la pose 3D pour inférer les actions, tout en étudiant les interactions entre personnes. Par la suite, nous proposons un modèle de reconnaissance d'actions lagrangienne fondé sur la fusion de la pose 3D et de l'apparence contextualisée au sein des tracklets. Grâce à cette approche, notre méthode atteint des performances de pointe sur le jeu de données AVA v2.2, tant dans les configurations basées uniquement sur la pose que dans les configurations standards. Lors de la reconnaissance d'actions utilisant uniquement des indices de pose, notre modèle de pose obtient une amélioration de +10,0 mAP par rapport à l'état de l'art correspondant, tandis que notre modèle fusionné réalise une amélioration de +2,8 mAP par rapport au meilleur modèle de l'état de l'art. Le code et les résultats sont disponibles à l'adresse suivante : https://brjathu.github.io/LART