PIFu : Fonction implicite alignée aux pixels pour la numérisation à haute résolution d'humains vêtus

Nous présentons la Fonction Implicite Alignée aux Pixels (PIFu), une représentation implicite particulièrement efficace qui aligne localement les pixels des images 2D avec le contexte global de leur objet 3D correspondant. À l'aide de PIFu, nous proposons une méthode d'apprentissage profond en bout-à-bout pour numériser des humains vêtus avec un haut niveau de détail, capable d'inférer à la fois la surface 3D et la texture à partir d'une seule image, et éventuellement de plusieurs images d'entrée. Des formes hautement complexes, telles que les coiffures, les vêtements ainsi que leurs variations et déformations, peuvent être numérisées de manière unifiée. Comparée aux représentations existantes utilisées dans l'apprentissage profond 3D, PIFu peut produire des surfaces à haute résolution, y compris des régions largement inobservées comme le dos d'une personne. En particulier, elle est plus efficace en termes de mémoire par rapport à la représentation par voxels, peut gérer une topologie arbitraire, et la surface résultante est spatialement alignée avec l'image d'entrée. De plus, alors que les techniques précédentes sont conçues pour traiter soit une seule image soit plusieurs vues, PIFu s'étend naturellement à un nombre arbitraire de vues. Nous démontrons des reconstructions à haute résolution et robustes sur des images du monde réel issues du jeu de données DeepFashion, qui contient une variété de types vestimentaires difficiles. Notre méthode atteint des performances de pointe sur un benchmark public et surpassent les travaux antérieurs pour la numérisation d'humains vêtus à partir d'une seule image.