Reconnaissance des actions humaines comme l'évolution des cartes d'estimation de posture

La plupart des approches actuelles de reconnaissance d’actions basées sur la vidéo choisissent d’extraire des caractéristiques à partir de la vidéo entière pour identifier les actions. Toutefois, les arrière-plans encombrés et les mouvements non pertinents limitent les performances de ces méthodes, qui manquent une modélisation explicite des mouvements du corps humain. Grâce aux progrès récents dans l’estimation de la posture humaine, cette étude présente une nouvelle méthode pour reconnaître les actions humaines comme l’évolution des cartes d’estimation de posture. Contrairement aux approches qui s’appuient sur des postures humaines estimées de manière peu précise à partir des vidéos, nous observons que les cartes d’estimation de posture — produit secondaire de l’estimation de posture — conservent des indices plus riches concernant le corps humain, bénéfiques pour la reconnaissance d’actions. Plus précisément, l’évolution de ces cartes peut être décomposée en deux composantes : l’évolution des cartes de chaleur (par exemple, cartes probabilistes) et l’évolution des postures humaines 2D estimées, représentant respectivement les changements de forme corporelle et de posture. En tenant compte de la propriété d’éparpillement des cartes de chaleur, nous proposons une méthode de pooling par rang spatial pour agréger l’évolution des cartes de chaleur en une image d’évolution de la forme corporelle. Comme cette image ne distingue pas les différentes parties du corps, nous concevons un échantillonnage guidé par le corps afin d’agréger l’évolution des postures en une image d’évolution de posture corporelle. Les propriétés complémentaires de ces deux types d’images sont exploitées par des réseaux de neurones convolutifs profonds pour prédire l’étiquette d’action. Des expériences menées sur les jeux de données NTU RGB+D, UTD-MHAD et PennAction confirment l’efficacité de notre méthode, qui surpasse la plupart des approches de pointe.