HyperAIHyperAI
il y a 17 jours

LCR-Net : Localisation-Classification-Régression pour la Pose Humaine

{Gregory Rogez, Cordelia Schmid, Philippe Weinzaepfel}
LCR-Net : Localisation-Classification-Régression pour la Pose Humaine
Résumé

Nous proposons une architecture end-to-end pour l'estimation conjointe de la posture 2D et 3D d'êtres humains dans des images naturelles. La pierre angulaire de notre approche réside dans la génération et le scoring d’un certain nombre de propositions de posture par image, ce qui nous permet de prédire simultanément les postures 2D et 3D de plusieurs personnes. Ainsi, notre méthode ne nécessite pas de localisation approximative des humains pour l’initialisation. Notre architecture, nommée LCR-Net, comporte trois composants principaux : 1) un générateur de propositions de posture qui suggère des postures potentielles à différentes localisations dans l’image ; 2) un classificateur qui évalue les différentes propositions de posture ; et 3) un régresseur qui affine les propositions de posture à la fois en 2D et en 3D. Les trois étapes partagent les couches de caractéristiques convolutives et sont entraînées de manière conjointe. L’estimation finale de la posture est obtenue en intégrant sur des hypothèses de posture voisines, une approche qui s'avère supérieure à l'algorithme standard de suppression non maximale. Notre méthode dépasse significativement l’état de l’art en estimation 3D sur le jeu de données Human3.6M, un environnement contrôlé. De plus, elle obtient des résultats prometteurs sur des images réelles, tant pour les sous-ensembles à une personne que pour ceux à plusieurs personnes du benchmark MPII 2D.