Réseau de Propagation d'Attention pour le Relèvement de la Carte de Chaleur Égocentrique vers la Posture 3D

Nous présentons EgoTAP, une méthode de relevé de pose 3D à partir d'une carte thermique pour une estimation stéréoscopique égocentrique 3D très précise. Les auto-occultations sévères et les membres hors champ dans les vues égocentriques rendent l'estimation précise de la pose un problème complexe. Pour relever ce défi, les méthodes précédentes ont recours aux cartes thermiques articulaires, des représentations probabilistes 2D de la posture du corps, mais la conversion de ces cartes en pose 3D reste un processus peu précis. Nous proposons une nouvelle méthode de relevé de pose 3D à partir d'une carte thermique composée d'un encodeur Grid ViT et d'un réseau de propagation. L'encodeur Grid ViT résume les cartes thermiques articulaires en plongements caractéristiques efficaces grâce à l'auto-attention. Ensuite, le réseau de propagation estime la pose 3D en utilisant des informations squelettiques pour améliorer l'estimation de la position des joints obscurs. Notre méthode surpasse significativement l'état de l'art actuel, tant qualitativement que quantitativement, comme en témoigne une réduction de 23,9 % des erreurs selon la métrique MPJPE (Mean Per Joint Position Error). Notre code source est disponible sur GitHub.