Reconstruction 3D d’un corps et d’un vêtement à vue unique sous des poses complexes

Les avancées récentes en reconstruction de la forme 3D humaine à partir d’images monoculaires ont montré des résultats impressionnants, en exploitant des réseaux profonds qui modélisent ce qu’on appelle une fonction implicite afin d’apprendre l’état d’occupation de points 3D arbitrairement denses dans l’espace. Toutefois, bien que les algorithmes actuels basés sur ce paradigme, comme PiFuHD, soient capables d’estimer avec précision la géométrie de la forme humaine et des vêtements, ils nécessitent des images d’entrée à haute résolution et ne parviennent pas à capturer des poses corporelles complexes. La majeure partie de l’entraînement et de l’évaluation est effectuée sur des images de résolution 1k représentant des humains debout face à la caméra dans des poses neutres. Dans cet article, nous exploitons des données publiques pour étendre les modèles existants fondés sur les fonctions implicites afin qu’ils puissent traiter des images d’humains présentant des poses arbitraires et des membres auto-occlusés. Nous affirmons que la puissance de représentation d’une fonction implicite est insuffisante pour modéliser simultanément les détails géométriques et la pose corporelle. Nous proposons donc une approche progressive, de grossier à fin, dans laquelle nous apprenons d’abord une fonction implicite qui mappe l’image d’entrée vers une forme 3D humaine à faible niveau de détail, mais qui correspond correctement à la pose sous-jacente, même dans sa complexité. Ensuite, nous apprenons une carte de déplacement conditionnée par la surface lissée et par l’image d’entrée, qui encode les détails haute fréquence des vêtements et du corps. Dans la section expérimentale, nous démontrons que cette stratégie progressive représente un excellent compromis entre la richesse des détails de la forme et la fidélité de la pose, surpassant favorablement les approches les plus récentes de l’état de l’art. Notre code sera rendu publiquement disponible.