PIFuHD : Fonction Implicite Multiniveau Alignée aux Pixels pour la Numérisation 3D à Haute Résolution de l'Humain

Les récentes avancées dans l'estimation de la forme humaine 3D basée sur des images sont principalement dues à l'amélioration significative de la capacité de représentation offerte par les réseaux neuronaux profonds. Bien que les approches actuelles aient démontré leur potentiel dans des scénarios du monde réel, elles échouent encore à produire des reconstructions avec le niveau de détail souvent présent dans les images d'entrée. Nous soutenons que cette limitation provient principalement de deux exigences contradictoires : des prédictions précises nécessitent un grand contexte, mais des prédictions exactes nécessitent une haute résolution. En raison des limitations mémoire du matériel actuel, les approches précédentes ont tendance à utiliser des images de faible résolution en entrée pour couvrir un grand contexte spatial, ce qui entraîne des estimations 3D moins précises (ou de faible résolution). Nous abordons cette limitation en formulant une architecture multi-niveaux entièrement apprenable. Un niveau grossier observe l'image complète à une résolution plus faible et se concentre sur la raisonnement global. Celui-ci fournit le contexte nécessaire à un niveau fin qui estime une géométrie hautement détaillée en observant des images de plus haute résolution. Nous montrons que notre approche surpasse considérablement les techniques existantes de pointe en reconstruction de forme humaine 3D à partir d'une seule image en exploitant pleinement des images d'entrée de résolution 1k.