PersonLab : Estimation de la pose et segmentation d'instances de personnes avec un modèle d'embedding géométrique basé sur les parties et ascendante

Nous présentons une approche ascendante sans boîtes englobantes pour les tâches d'estimation de la posture et de segmentation d'instances des personnes dans des images à plusieurs personnes, en utilisant un modèle efficace à détection unique. Le modèle PersonLab proposé aborde à la fois le raisonnement au niveau sémantique et les associations entre parties d'objets grâce à une modélisation basée sur les parties. Notre modèle utilise un réseau convolutif qui apprend à détecter des points clés individuels et à prédire leurs déplacements relatifs, ce qui nous permet de regrouper ces points clés en instances de postures humaines. De plus, nous proposons un descripteur d'incrustation géométrique induit par les parties, qui nous permet d'associer les pixels sémantiques des personnes à leur instance correspondante, fournissant ainsi des segmentations d'instances de personnes. Notre système repose sur une architecture entièrement convolutive et permet une inférence efficace, avec un temps d'exécution essentiellement indépendant du nombre de personnes présentes dans la scène. Formé uniquement sur les données COCO, notre système atteint une précision moyenne des points clés de 0.665 sur l'évaluation COCO test-dev en utilisant l'inférence mono-échelle et 0.687 en utilisant l'inférence multi-échelles, surpassant considérablement tous les systèmes précédents d'estimation de posture ascendante. Nous sommes également la première méthode ascendante à rapporter des résultats compétitifs pour la classe personne dans la tâche de segmentation d'instances COCO, atteignant une précision moyenne de catégorie personne de 0.417.