Estimation de la forme et de la posture humaines masquées par des objets à partir d'une seule image couleur

Les occlusions entre les êtres humains et les objets, en particulier dans le cadre des interactions humain-objet, sont très fréquentes dans les applications pratiques. Toutefois, la plupart des méthodes existantes pour l'estimation de la forme 3D et de la posture humaines supposent que les corps humains sont capturés de manière complète, sans occlusion ou avec des occlusions auto-minimes. Dans cet article, nous nous concentrons sur le problème de l'estimation directe de la forme et de la posture humaines occlues par des objets à partir d'images couleur monoculaires. Notre idée principale consiste à utiliser une carte UV partielle pour représenter un corps humain occlu par un objet, et à transformer finalement l'estimation de la forme humaine 3D en un problème de complétion d'image (image inpainting). Nous proposons une nouvelle architecture de réseau à deux branches, conçue pour entraîner un régresseur end-to-end grâce à une supervision par caractéristiques latentes, incluant également un nouveau sous-réseau de carte de salience pour extraire les informations humaines à partir d'images couleur occlues par des objets. Pour superviser l'entraînement du réseau, nous avons également construit un nouveau jeu de données appelé 3DOH50K. Plusieurs expériences ont été menées afin de démontrer l'efficacité de la méthode proposée. Les résultats expérimentaux montrent que la méthode proposée atteint un niveau d’état de l’art par rapport aux approches antérieures. Le jeu de données et le code source sont disponibles publiquement à l’adresse suivante : https://www.yangangwang.com.