Décomposition multi-vue de la silhouette et de la profondeur pour la représentation 3D à haute résolution d'objets

Nous abordons le problème de l'extension des modèles génératifs profonds de formes à une résolution élevée. En nous inspirant de la représentation canonique des objets en vue axonométrique, nous présentons une méthode novatrice pour l'échantillonnage rapide d'objets 3D dans l'espace voxel grâce à des réseaux effectuant un suréchantillonnage sur les six projections orthographiques de profondeur. Cela nous permet de générer des objets à haute résolution avec une mise à l'échelle plus efficace que les méthodes travaillant directement en 3D. Nous décomposons le problème de la surrésolution 2D de profondeur en prédiction de silhouettes et de profondeurs pour capturer à la fois la structure et les détails fins. Cette approche permet à notre méthode de générer des arêtes nettes plus facilement qu'un réseau individuel. Nous évaluons notre travail au travers de multiples expériences concernant des objets 3D à haute résolution, et montrons que notre système est capable de prédire précisément des objets inédits à des résolutions allant jusqu'à 512$\mathbf{\times}$512$\mathbf{\times}$512 -- la plus haute résolution rapportée pour cette tâche. Nous obtenons des performances d'avant-garde en reconstruction d'objets 3D à partir d'images RGB sur le jeu de données ShapeNet, et démontrons par ailleurs la première méthode efficace de surrésolution 3D.