Poseur : Régression directe de la posture humaine avec des transformateurs

Nous proposons une approche directe, fondée sur la régression, pour l’estimation de la posture 2D humaine à partir d’images simples. Nous formulons ce problème comme une tâche de prédiction de séquence, que nous résolvons à l’aide d’un réseau Transformer. Ce réseau apprend directement une application de régression à partir des images vers les coordonnées des points clés, sans recourir à des représentations intermédiaires telles que les cartes de chaleur. Cette approche évite une grande partie de la complexité inhérente aux méthodes basées sur les cartes de chaleur. Pour surmonter les problèmes d’alignement des caractéristiques présents dans les méthodes précédentes fondées sur la régression, nous proposons un mécanisme d’attention qui s’adapte automatiquement aux caractéristiques les plus pertinentes par rapport aux points clés cibles, améliorant considérablement la précision. De manière importante, notre cadre est entièrement différentiable en boucle, et apprend naturellement à exploiter les dépendances entre les points clés. Des expériences menées sur les jeux de données MS-COCO et MPII, deux référentiels majeurs pour l’estimation de posture, démontrent que notre méthode surpasser significativement l’état de l’art en estimation de posture par régression. Plus notablement, il s’agit de la première approche fondée sur la régression à rivaliser avantageusement avec les meilleures méthodes basées sur les cartes de chaleur.