Simple Pose : Repenser et améliorer une approche bottom-up pour l'estimation de posture multi-personne

Nous repensons une approche bien connue de type bottom-up pour l’estimation de poses multi-personnes et proposons une version améliorée. Cette approche améliorée dépasse significativement la méthode de référence grâce à (1) une représentation intuitive mais plus pertinente, que nous appelons « parties du corps », pour encoder les informations de connexion entre les points clés, (2) un réseau hourglass empilé amélioré intégrant des mécanismes d’attention, (3) une nouvelle perte L2 focalisée, spécifiquement conçue pour le mining des points clés difficiles et des associations de points clés (parties du corps), et (4) un algorithme robuste d’affectation gloutonne des points clés pour regrouper les points détectés en poses individuelles. Notre méthode fonctionne de manière directe tout en améliorant la précision moyenne de près de 15 % par rapport à la méthode de référence, et atteint des performances comparables à l’état de l’art sur le jeu de test-dev du MS-COCO. Le code source et les modèles pré-entraînés sont disponibles publiquement en ligne.