Le Centre d'Attention : Regroupement Centre-Point Clé par Attention pour l'Estimation de Posture Multi-Personne

Nous introduisons CenterGroup, un cadre fondé sur l'attention pour estimer les poses humaines à partir d'un ensemble de points clés sans identité et de prédictions de centres de personnes dans une image. Notre approche utilise un transformateur pour obtenir des embeddings contextuels pour tous les points clés et centres détectés, puis applique une attention à plusieurs têtes afin de regrouper directement les articulations autour de leurs centres respectifs. Contrairement à la plupart des méthodes bottom-up qui reposent sur un regroupement non apprenable lors de l'inférence, CenterGroup utilise un mécanisme d'attention entièrement différentiable, entraîné de manière end-to-end conjointement avec notre détecteur de points clés. En conséquence, notre méthode atteint des performances de pointe, avec un temps d'inférence jusqu'à 2,5 fois plus rapide que les méthodes bottom-up concurrentes. Notre code est disponible à l'adresse suivante : https://github.com/dvl-tum/center-group.