Réseau en Cascade Pyramidal pour l'Estimation de la Posture de Plusieurs Personnes

Le sujet de l'estimation de la posture de plusieurs personnes a connu des améliorations considérables récemment, en particulier avec le développement des réseaux neuronaux convolutifs. Cependant, il existe encore de nombreux cas difficiles, tels que les points clés masqués, invisibles et les arrière-plans complexes, qui ne sont pas bien résolus. Dans cet article, nous présentons une nouvelle structure de réseau appelée Cascaded Pyramid Network (CPN), visant à atténuer le problème posé par ces points clés « difficiles ». Plus précisément, notre algorithme comprend deux étapes : GlobalNet et RefineNet. GlobalNet est un réseau pyramidal de caractéristiques capable de localiser avec succès les points clés « simples » comme les yeux et les mains, mais peut échouer à reconnaître précisément les points clés masqués ou invisibles. Notre RefineNet tente d'aborder explicitement ces points clés « difficiles » en intégrant tous les niveaux de représentation des caractéristiques provenant du GlobalNet, associé à une perte d'extraction en ligne des points clés difficiles. En général, pour résoudre le problème d'estimation de la posture de plusieurs personnes, une approche descendante est adoptée pour générer initialement un ensemble de boîtes englobantes humaines basées sur un détecteur, suivie par notre CPN pour la localisation des points clés dans chaque boîte englobante humaine. Sur la base de l'algorithme proposé, nous obtenons des résultats d'avant-garde sur le banc d'essai des points clés COCO, avec une précision moyenne de 73,0 sur l'ensemble COCO test-dev et 72,1 sur l'ensemble COCO test-challenge, ce qui représente une amélioration relative de 19 % par rapport aux 60,5 du défi COCO 2016 sur les points clés. Le code (https://github.com/chenyilun95/tf-cpn.git) et les résultats de détection sont disponibles publiquement pour des recherches ultérieures.