HyperAIHyperAI
il y a 7 jours

RTMW : Estimation en temps réel de la posture entière à 2D et 3D pour plusieurs personnes

Tao Jiang, Xinchen Xie, Yining Li
RTMW : Estimation en temps réel de la posture entière à 2D et 3D pour plusieurs personnes
Résumé

L'estimation de la posture du corps entier est une tâche difficile qui nécessite la prédiction simultanée des points clés correspondant au corps, aux mains, au visage et aux pieds. L'estimation de la posture du corps entier vise à prédire des informations de posture à haute résolution pour le corps humain, y compris le visage, le tronc, les mains et les pieds, ce qui joue un rôle crucial dans l’étude de la perception et de la génération centrées sur l’humain ainsi que dans diverses applications. Dans ce travail, nous présentons RTMW (Real-Time Multi-person Whole-body pose estimation models), une série de modèles à haute performance pour l’estimation de posture 2D/3D du corps entier. Nous intégrons l’architecture du modèle RTMPose avec un FPN (Feature Pyramid Network) et un module d’encodage hiérarchique (HEM, Hierarchical Encoding Module) afin de mieux capturer les informations de posture provenant de différentes parties du corps à différentes échelles. Le modèle est entraîné sur une vaste collection de jeux de données open-source de points clés humains, dotés d’annotations manuellement alignées, et amélioré par une stratégie de distillation en deux étapes. RTMW démontre des performances solides sur plusieurs benchmarks d’estimation de posture du corps entier tout en maintenant une efficacité élevée en inférence et une facilité d’intégration en production. Nous mettons à disposition trois tailles : m/l/x, avec RTMW-l atteignant un score de 70,2 mAP sur le benchmark COCO-Wholebody, ce qui en fait le premier modèle open-source à dépasser 70 mAP sur ce benchmark. Par ailleurs, nous avons exploré les performances de RTMW dans la tâche d’estimation de posture 3D du corps entier, en réalisant une estimation monoscopique 3D basée sur l’image selon une approche de classification des coordonnées. Nous espérons que ce travail bénéficiera à la recherche académique comme aux applications industrielles. Le code source et les modèles sont désormais accessibles publiquement à l’adresse suivante : https://github.com/open-mmlab/mmpose/tree/main/projects/rtmpose

RTMW : Estimation en temps réel de la posture entière à 2D et 3D pour plusieurs personnes | Articles de recherche récents | HyperAI