Estimation en temps réel de la posture 2D de plusieurs personnes à l'aide des champs d'affinité de parties

Nous présentons une approche permettant de détecter efficacement la posture 2D de plusieurs personnes dans une image. Cette approche utilise une représentation non paramétrique, que nous appelons Champs d'Affinité des Parties (Part Affinity Fields [PAFs]), pour apprendre à associer les parties du corps aux individus présents dans l'image. L'architecture encode le contexte global, ce qui permet une étape de parsing bottom-up glouton qui maintient une haute précision tout en atteignant des performances en temps réel, indépendamment du nombre de personnes dans l'image. L'architecture est conçue pour apprendre conjointement les emplacements des parties et leurs associations grâce à deux branches du même processus de prédiction séquentielle. Notre méthode a remporté le premier prix lors du défi COCO 2016 sur les points clés, et dépasse considérablement le résultat antérieur de l'état de l'art sur le benchmark MPII Multi-Personne, tant en termes de performance que d'efficacité.