SceneDreamer : Génération illimitée de scènes 3D à partir de collections d'images 2D

Dans ce travail, nous présentons SceneDreamer, un modèle génératif non conditionnel pour des scènes 3D illimitées, capable de synthétiser de vastes paysages 3D à partir de bruit aléatoire. Notre cadre d’apprentissage repose exclusivement sur des collections d’images 2D recueillies dans le monde réel, sans aucune annotation 3D. Au cœur de SceneDreamer se trouve un paradigme d’apprentissage rigoureux comprenant : 1) une représentation 3D de scène efficace et expressive, 2) une paramétrisation générative de la scène, et 3) un rendu efficace pouvant exploiter les connaissances issues des images 2D. Notre approche commence par une représentation en vue de dessus (bird’s-eye-view, BEV) efficace, générée à partir de bruit simplexe, incluant un champ d’élévation pour la cote du sol et un champ sémantique pour les détails descriptifs de la scène. Cette représentation BEV permet : 1) de représenter une scène 3D avec une complexité quadratique, 2) une séparation claire entre géométrie et sémantique, et 3) un entraînement efficace. Par ailleurs, nous proposons un nouveau réseau neuronal à grille hachée génératif, permettant de paramétrer l’espace latent en fonction des positions 3D et de la sémantique de la scène, dans le but d’encoder des caractéristiques généralisables à travers diverses scènes. Enfin, un rendu volumétrique neuronal, appris à partir de collections d’images 2D par apprentissage adversarial, est utilisé pour produire des images photoréalistes. Des expériences étendues démontrent l’efficacité de SceneDreamer et son avantage par rapport aux méthodes de pointe dans la génération de mondes 3D illimités vivants et diversifiés.