Détection explicite de boîtes unifie l'estimation de pose multi-personne de bout en bout

Ce document présente un nouveau cadre de bout en bout avec une détection explicite des boîtes pour l'estimation de la posture de plusieurs personnes, appelé ED-Pose, où il unifie l'apprentissage contextuel entre les informations de niveau humain (global) et de niveau point clé (local). Contrairement aux méthodes mono-étape précédentes, ED-Pose reconsidère cette tâche comme deux processus de détection explicite des boîtes avec une représentation unifiée et une supervision par régression. Premièrement, nous introduisons un décodeur de détection humaine à partir de jetons encodés pour extraire des caractéristiques globales. Il peut fournir une bonne initialisation pour la détection ultérieure des points clés, ce qui accélère le processus d'entraînement. Deuxièmement, pour intégrer les informations contextuelles proches des points clés, nous considérons l'estimation de la posture comme un problème de détection des boîtes autour des points clés afin d'apprendre à la fois les positions et les contenus de chaque point clé. Un décodeur de détection humaine vers point clé adopte une stratégie d'apprentissage interactif entre les caractéristiques humaines et celles des points clés pour renforcer davantage l'agrégation des caractéristiques globales et locales. En général, ED-Pose est conceptuellement simple sans post-traitement ni supervision par carte thermique dense. Il montre son efficacité et son efficience comparées aux méthodes en deux étapes et mono-étape. Notamment, la détection explicite des boîtes améliore les performances d'estimation de la posture de 4,5 AP sur COCO et 9,9 AP sur CrowdPose. Pour la première fois, en tant que cadre entièrement de bout en bout avec une perte de régression L1, ED-Pose dépasse les méthodes Top-down basées sur les cartes thermiques sous le même backbone avec 1,2 AP supplémentaire sur COCO et atteint l'état de l'art avec 76,6 AP sur CrowdPose sans recours à des techniques complémentaires complexes. Le code est disponible à l'adresse suivante : https://github.com/IDEA-Research/ED-Pose.