Regarder la personne : réseau de détection conjointe du corps et de l'estimation de la pose et un nouveau benchmark

L'analyse de l'humain et l'estimation de la posture ont récemment suscité un intérêt considérable en raison de leurs importantes potentialités d'application. Cependant, les jeux de données existants présentent un nombre limité d'images et d'annotations, et manquent de diversité dans les apparences humaines ainsi que de couverture des cas difficiles dans des environnements non contrôlés. Dans cet article, nous présentons un nouveau benchmark nommé « Look into Person (LIP) » qui offre une avancée significative en termes de scalabilité, de diversité et de difficulté, éléments cruciaux pour les développements futurs dans l'analyse centrée sur l'humain. Ce jeu de données exhaustif contient plus de 50 000 images annotées avec précision, comportant 19 étiquettes sémantiques de parties du corps et 16 articulations corporelles, capturées à partir d'une large gamme de points de vue, d'occlusions et de complexités d'arrière-plan. En utilisant ces annotations riches, nous effectuons une analyse détaillée des principales approches d'analyse de l'humain et d'estimation de la posture, ce qui nous permet d'obtenir des insights sur les réussites et les échecs de ces méthodes. Pour explorer davantage et tirer parti de la corrélation sémantique entre ces deux tâches, nous proposons un nouveau réseau conjoint d'analyse de l'humain et d'estimation de la posture visant à explorer une modélisation efficace du contexte, capable de prédire simultanément l'analyse du corps humain et sa posture avec une qualité extrêmement élevée. De plus, nous simplifions le réseau pour résoudre l'analyse humaine en explorant une nouvelle approche d'apprentissage auto-supervisé sensible à la structure, qui intègre les structures posturales humaines aux résultats d'analyse sans recourir à une supervision supplémentaire. Le jeu de données, le code source et les modèles sont disponibles à l'adresse http://www.sysu-hcp.net/lip/.