Apprentissage de la régression des corps à partir d'images en utilisant le rendu sémantique différentiable

L'apprentissage de la régression de la forme et de la posture du corps humain en 3D (par exemple, les paramètres SMPL) à partir d'images monoculaires exploite généralement des pertes sur les points clés 2D, les silhouettes et/ou les segmentations de parties lorsque des données d'entraînement en 3D ne sont pas disponibles. Cependant, ces pertes sont limitées car les points clés 2D ne supervisent pas la forme du corps et les segmentations de personnes vêtues ne correspondent pas aux formes SMPL projetées avec un minimum de vêtements. Pour exploiter une information visuelle plus riche sur les personnes habillées, nous introduisons une information sémantique de niveau supérieur concernant les vêtements afin de pénaliser différemment les régions habillées et non habillées de l'image. Pour ce faire, nous entraînons un régresseur corporel en utilisant une nouvelle perte Differentiable Semantic Rendering (DSR). Pour les régions Minimally-Clothed, nous définissons la perte DSR-MC, qui favorise une correspondance étroite entre un corps SMPL rendu et les régions minimalement habillées de l'image. Pour les régions habillées, nous définissons la perte DSR-C pour encourager le corps SMPL rendu à se trouver à l'intérieur du masque de vêtements. Pour garantir une formation différentiable bout à bout, nous apprenons un a priori sémantique des vêtements pour les sommets SMPL à partir de milliers de scans humains habillés. Nous menons des expériences qualitatives et quantitatives approfondies pour évaluer le rôle des sémantiques vestimentaires sur la précision de l'estimation de la posture et de la forme du corps humain en 3D. Nous surpassons toutes les méthodes précédentes d'avant-garde sur 3DPW et Human3.6M et obtenons des résultats comparables sur MPI-INF-3DHP. Le code source et les modèles entraînés sont disponibles pour la recherche à l'adresse https://dsr.is.tue.mpg.de/.