GAUDI : une architecture neuronale pour la génération immersive de scènes 3D

Nous introduisons GAUDI, un modèle génératif capable de capturer la distribution de scènes 3D complexes et réalistes pouvant être rendues de manière immersive à partir d'une caméra en mouvement. Nous abordons ce problème difficile par une approche à la fois évolutive et puissante, consistant d'abord à optimiser une représentation latente qui découple les champs de radiance et les poses de caméra. Cette représentation latente est ensuite utilisée pour apprendre un modèle génératif permettant à la fois la génération inconditionnelle et conditionnelle de scènes 3D. Notre modèle généralise les travaux antérieurs axés sur des objets uniques en éliminant l'hypothèse selon laquelle la distribution des poses de caméra peut être partagée entre différents échantillons. Nous démontrons que GAUDI atteint des performances de pointe dans le cadre de la génération inconditionnelle sur plusieurs jeux de données, tout en permettant la génération conditionnelle de scènes 3D à partir de variables de conditionnement telles que des observations d'images éparses ou un texte décrivant la scène.