Récupération de la maille manuelle dans l’espace caméra par agrégation sémantique et enregistrement adaptatif 2D-1D

Les dernières années ont vu des progrès significatifs dans la reconstruction de maillages 3D de la main. Toutefois, en raison de l’ambiguïté intrinsèque liée à la projection 2D vers 3D, la récupération des informations 3D dans l’espace caméra à partir d’une seule image RGB reste un défi. Pour relever ce problème, nous décomposons la reconstruction du maillage dans l’espace caméra en deux tâches sous-jacentes : la reconstruction du maillage relatif à la racine et la reconstruction de la racine. Tout d’abord, des repères articulaires et une silhouette sont extraits à partir d’une seule image d’entrée afin de fournir des indices 2D pour les tâches 3D. Dans la tâche de reconstruction du maillage relatif à la racine, nous exploitons les relations sémantiques entre les articulations pour générer un maillage 3D à partir des indices 2D extraits. Les coordonnées 3D de ce maillage généré sont exprimées par rapport à une position de référence, à savoir le poignet de la main. Dans la tâche de reconstruction de la racine, la position de la racine est ramenée dans l’espace caméra en alignant le maillage 3D généré sur les indices 2D, permettant ainsi de compléter la reconstruction du maillage 3D dans l’espace caméra. Notre pipeline est novateur en ce qu’il (1) exploite explicitement les relations sémantiques connues entre les articulations et (2) utilise des projections 1D de la silhouette et du maillage pour assurer un alignement robuste. Des expériences étendues sur des jeux de données populaires tels que FreiHAND, RHD et Human3.6M démontrent que notre approche atteint un niveau d’performance de pointe pour les deux tâches, à savoir la reconstruction du maillage relatif à la racine et la reconstruction de la racine. Le code source est disponible publiquement à l’adresse suivante : https://github.com/SeanChenxy/HandMesh.