Jointformer : Transformateur à cadre unique avec prédiction et raffinement des erreurs pour l'estimation de la pose humaine en 3D

Les technologies d'estimation monulaire de la posture humaine en 3D ont le potentiel de considérablement augmenter la disponibilité des données sur les mouvements humains. Les modèles les plus performants pour l'élévation 2D-3D à partir d'une seule image utilisent des réseaux de convolution graphique (GCNs) qui nécessitent généralement une entrée manuelle pour définir les relations entre différentes articulations du corps. Nous proposons une nouvelle approche basée sur les transformateurs qui utilise le mécanisme d'auto-attention généralisé pour apprendre ces relations au sein d'une séquence de jetons représentant les articulations. Nous constatons que l'utilisation d'une supervision intermédiaire, ainsi que des connexions résiduelles entre les encodeurs empilés, améliore les performances. Nous suggérons également que l'utilisation de la prédiction d'erreur dans le cadre d'un apprentissage multitâche permet au réseau de compenser son niveau de confiance, ce qui améliore également les performances. Nous menons des études ablatives approfondies pour démontrer que chacune de nos contributions augmente les performances. De plus, nous montrons que notre approche surpass largement l'état de l'art récent en estimation de la posture humaine en 3D à partir d'une seule image. Notre code et nos modèles entraînés sont rendus publiquement disponibles sur Github.