LiftFormer : estimation de la posture 3D humaine à l’aide de modèles d’attention

L’estimation de la position 3D des articulations humaines est devenue un sujet largement étudié ces dernières années. Une attention particulière a été portée à la mise au point de nouvelles méthodes permettant de déduire des données 2D (points clés) des informations 3D, en particulier en prédisant les coordonnées relatives à la racine des articulations associées aux squelettes humains. Les dernières tendances de recherche ont démontré que les blocs d’encodeur Transformer capturent de manière significativement plus efficace les informations temporelles que les approches antérieures. Par conséquent, nous proposons d’utiliser ces modèles pour obtenir des prédictions 3D plus précises en exploitant les informations temporelles grâce à des mécanismes d’attention appliqués à des séquences ordonnées de postures humaines dans les vidéos.Notre méthode dépasse de manière cohérente les meilleurs résultats précédemment rapportés dans la littérature, tant avec des prédicteurs de points clés 2D (amélioration de 0,3 mm, soit 44,8 MPJPE, +0,7 %) qu’avec des entrées de vérité terrain (amélioration de 2 mm, soit 31,9 MPJPE, +8,4 %) sur le jeu de données Human3.6M. Elle atteint également un résultat de pointe sur le jeu de données HumanEva-I, avec un score de 10,5 P-MPJPE (réduction de 22,2 %). Le nombre de paramètres de notre modèle est facilement ajustable et reste inférieur à celui des méthodologies actuelles (9,5 M contre 16,95 M et 11,25 M), tout en offrant une performance supérieure. Ainsi, la précision de notre modèle de levée 3D dépasse celle des approches end-to-end ou basées sur SMPL, et se rapproche des meilleures méthodes multi-vues.