HyperAIHyperAI
il y a 7 jours

Réseaux de pose à instances multiples : repenser l'estimation de pose en mode haut-bas

Rawal Khirodkar, Visesh Chari, Amit Agrawal, Ambrish Tyagi
Réseaux de pose à instances multiples : repenser l'estimation de pose en mode haut-bas
Résumé

Une hypothèse fondamentale des approches de estimation de posture humaine de type « haut vers le bas » est de supposer qu’un seul individu ou instance est présent dans la boîte englobante d’entrée. Cette hypothèse conduit fréquemment à des échecs dans des scènes surchargées, notamment en présence d’occlusions. Nous proposons une solution originale pour surmonter les limites de cette hypothèse fondamentale. Notre réseau de posture à multiples instances, appelé MIPNet (Multi-Instance Pose Network), permet de prédire plusieurs instances de posture 2D au sein d’une même boîte englobante. Nous introduisons un bloc de modulation à multiples instances (MIMB, Multi-Instance Modulation Block), qui module de manière adaptative les réponses des caractéristiques canal par canal pour chaque instance, tout en étant économiquement paramétré. Nous démontrons l’efficacité de notre approche à travers des évaluations sur les jeux de données COCO, CrowdPose et OCHuman. Plus précisément, nous obtenons un score AP de 70,0 sur CrowdPose et 42,5 sur les ensembles de test OCHuman, soit une amélioration significative de 2,4 AP et 6,5 AP par rapport aux méthodes précédentes, respectivement. Lorsqu’on utilise des boîtes englobantes vraies (ground truth) pour l’inférence, MIPNet obtient une amélioration de 0,7 AP sur COCO, de 0,9 AP sur CrowdPose et de 9,1 AP sur les ensembles de validation OCHuman par rapport à HRNet. De manière intéressante, lorsque l’on utilise un nombre réduit de boîtes englobantes à haute confiance, les performances de HRNet se dégradent fortement sur OCHuman (chute de 5 AP), tandis que MIPNet maintient une performance relativement stable (baisse de seulement 1 AP) pour les mêmes entrées.

Réseaux de pose à instances multiples : repenser l'estimation de pose en mode haut-bas | Articles de recherche récents | HyperAI