Command Palette
Search for a command to run...
PANDA : Réseaux alignés par la pose pour une modélisation approfondie des attributs
PANDA : Réseaux alignés par la pose pour une modélisation approfondie des attributs
Zhang Ning Paluri Manohar Ranzato Marc'Aurelio Darrell Trevor Bourdev Lubomir
Résumé
Nous proposons une méthode permettant d’inférer des attributs humains (tels que le sexe, le style de cheveux, le style de vêtements, l’expression faciale ou l’action) à partir d’images de personnes présentant une grande variabilité de point de vue, de posture, d’apparence, d’articulation et d’occlusion. Les réseaux de neurones convolutifs (CNN) se sont révélés particulièrement efficaces pour des problèmes de reconnaissance d’objets à grande échelle. Toutefois, dans le cadre de la classification d’attributs, le signal est souvent subtil et peut occuper une petite partie de l’image, tandis que celle-ci est dominée par les effets de la posture et du point de vue. La prise en compte des variations de posture exigerait un entraînement sur des jeux de données étiquetées très volumineuses, actuellement indisponibles. Les modèles basés sur des parties, tels que les poselets ou les DPM, ont montré de bonnes performances pour ce type de tâche, mais leur efficacité est limitée par l’utilisation de caractéristiques de bas niveau peu profondes. Nous proposons une nouvelle méthode qui combine les modèles basés sur des parties et l’apprentissage profond en entraînant des CNN normalisés par la posture. Nous démontrons une amélioration significative par rapport aux méthodes de pointe sur des tâches exigeantes de classification d’attributs dans des environnements non contraints. Les expériences confirment que notre approche surpasse à la fois les meilleurs modèles basés sur des parties pour ce problème et les CNN conventionnels entraînés sur la boîte englobante complète de la personne.