HyperAIHyperAI
il y a 17 jours

CrossFormer : Transformer Spatio-Temporel Croisé pour l'Estimation de la Pose 3D Humaine

Mohammed Hassanin, Abdelwahed Khamiss, Mohammed Bennamoun, Farid Boussaid, Ibrahim Radwan
CrossFormer : Transformer Spatio-Temporel Croisé pour l'Estimation de la Pose 3D Humaine
Résumé

L'estimation de la posture 3D humaine peut être abordée en codant les dépendances géométriques entre les parties du corps tout en imposant des contraintes cinématiques. Récemment, les Transformers ont été adoptés pour modéliser les dépendances à longue portée entre les articulations dans les domaines spatial et temporel. Bien qu’ils aient démontré une excellente capacité à capturer ces dépendances à longue portée, des études ont souligné la nécessité d’améliorer la localité des Transformers visuels. Dans cette optique, nous proposons un nouveau Transformer pour l’estimation de posture, caractérisé par des représentations riches des articulations corporelles, essentielles pour capter des variations subtiles entre les trames (c’est-à-dire une représentation inter-fonctionnelle). Spécifiquement, grâce à deux nouveaux modules d’interaction — l’Interaction entre Articulations (Cross-Joint Interaction) et l’Interaction entre Trames (Cross-Frame Interaction) — le modèle encode explicitement les dépendances locales et globales entre les articulations. L’architecture proposée atteint des performances de pointe sur deux jeux de données populaires pour l’estimation de posture 3D humaine : Human3.6 et MPI-INF-3DHP. En particulier, la méthode proposée, CrossFormer, améliore les performances de 0,9 % et 0,3 % respectivement par rapport au modèle le plus proche, PoseFormer, dans les configurations basées sur des poses 2D détectées et sur des données de vérité terrain.

CrossFormer : Transformer Spatio-Temporel Croisé pour l'Estimation de la Pose 3D Humaine | Articles de recherche récents | HyperAI