PANDA : Réseaux Alignés sur la Posture pour la Modélisation Profonde des Attributs

Nous proposons une méthode pour inférer les attributs humains (comme le sexe, la coiffure, le style vestimentaire, l'expression faciale et l'action) à partir d'images de personnes présentant de grandes variations de point de vue, de posture, d'apparence, d'articulation et d'occlusion. Les réseaux neuronaux convolutifs (CNN) ont démontré des performances très élevées dans les problèmes de reconnaissance d'objets à grande échelle. Cependant, dans le contexte de la classification d'attributs, le signal est souvent subtil et peut ne couvrir qu'une petite partie de l'image, tandis que l'image est dominée par les effets de la posture et du point de vue. La prise en compte des variations de posture nécessiterait un entraînement sur des jeux de données étiquetés très importants qui ne sont pas actuellement disponibles. Les modèles basés sur des parties, tels que les poselets et le DPM (Deformable Parts Model), ont montré des performances satisfaisantes pour ce problème mais ils sont limités par des caractéristiques bas niveau peu profondes. Nous proposons une nouvelle méthode qui combine les modèles basés sur des parties et l'apprentissage profond en entraînant des CNNs normalisés en posture. Nous démontrons une amélioration substantielle par rapport aux méthodes les plus avancées actuellement disponibles pour des tâches difficiles de classification d'attributs dans des conditions non contraintes. Les expériences confirment que notre méthode surpassent à la fois les meilleurs modèles basés sur des parties pour ce problème et les CNNs conventionnels entraînés sur la boîte englobante complète de la personne.