Un réseau de génération de nuages de points pour la reconstruction d'objets 3D à partir d'une seule image

La génération de données 3D par des réseaux neuronaux profonds attire de plus en plus l'attention au sein de la communauté scientifique. La majorité des travaux existants recourent à des représentations régulières telles que des grilles volumétriques ou des collections d'images ; cependant, ces représentations masquent l'invariance naturelle des formes 3D sous les transformations géométriques et souffrent également de plusieurs autres problèmes. Dans cet article, nous abordons le problème de la reconstruction 3D à partir d'une seule image, en générant une forme de sortie directe -- les coordonnées du nuage de points. Avec ce problème émerge une question unique et intéressante : la forme réelle correspondant à une image d'entrée peut être ambiguë. Guidés par cette forme de sortie inhabituelle et par l'ambiguïté inhérente à la vérité terrain, nous concevons une architecture, une fonction de perte et un paradigme d'apprentissage qui sont novateurs et efficaces. Notre solution finale est un échantillonneur conditionnel de formes, capable de prédire plusieurs nuages de points 3D plausibles à partir d'une image d'entrée. Dans nos expériences, notre système non seulement surpasse les méthodes les plus avancées sur les benchmarks de reconstruction 3D basée sur une seule image, mais il montre également une forte performance pour le complétion des formes 3D et une capacité prometteuse à faire plusieurs prédictions plausibles.