Vers une estimation précise de la pose multi-personne dans des conditions réelles

Nous proposons une méthode de détection multi-personne et d'estimation de la posture 2D qui obtient des résultats d'état de l'art sur la tâche difficile des points clés COCO. Il s'agit d'une approche descendante (top-down) simple mais puissante, composée de deux étapes.Dans la première étape, nous prédisons l'emplacement et l'échelle des boîtes susceptibles de contenir des personnes ; pour cela, nous utilisons le détecteur Faster RCNN. Dans la deuxième étape, nous estimons les points clés de la personne potentiellement contenue dans chaque boîte de délimitation proposée. Pour chaque type de point clé, nous prédisons des cartes thermiques denses et des décalages en utilisant un réseau neuronal entièrement convolutif basé sur ResNet. Pour combiner ces sorties, nous introduisons une nouvelle procédure d'agrégation afin d'obtenir des prédictions de points clés très localisées. Nous utilisons également une nouvelle forme de suppression non maximale (Non-Maximum Suppression, NMS) basée sur les points clés, au lieu de la NMS au niveau des boîtes plus grossière, ainsi qu'une nouvelle forme d'estimation du score de confiance basée sur les points clés, au lieu du scoring au niveau des boîtes.Formé uniquement sur les données COCO, notre système final atteint une précision moyenne de 0,649 sur l'ensemble COCO test-dev et 0,643 sur l'ensemble test-standard, surpassant ainsi le gagnant du défi COCO keypoints 2016 et d'autres méthodes récentes d'état de l'art. De plus, en utilisant des données supplémentaires étiquetées internement, nous obtenons une précision moyenne encore plus élevée de 0,685 sur l'ensemble test-dev et 0,673 sur l'ensemble test-standard, soit une amélioration absolue supérieure à 5 % par rapport à la meilleure méthode précédente sur le même ensemble de données.