Génération de scènes sans contrainte à l’aide de champs de radiance conditionnés localement

Nous abordons le défi de l'apprentissage d'une distribution sur des scènes intérieures complexes et réalistes. Dans cet article, nous introduisons les Réseaux de Scènes Génératifs (GSN), un modèle qui apprend à décomposer les scènes en une collection de nombreux champs de radiance locaux, pouvant être rendus à partir d'une caméra se déplaçant librement. Notre modèle peut servir de priori pour générer de nouvelles scènes, ou pour compléter une scène à partir d'observations 2D très éparse. Des travaux récents ont montré que les modèles génératifs de champs de radiance sont capables de capturer des propriétés telles que la cohérence multi-vue et l'éclairage dépendant de la vue. Toutefois, ces modèles sont spécialisés pour des vues contraintes sur des objets uniques, comme des voitures ou des visages. En raison de la taille et de la complexité des environnements intérieurs réalistes, les modèles existants manquent de capacité représentationnelle pour les capturer adéquatement. Notre schéma de décomposition s'adapte à des scènes plus grandes et plus complexes tout en préservant détails et diversité, et le prior appris permet un rendu de haute qualité depuis des points de vue sensiblement différents de ceux observés. Comparé aux modèles existants, GSN produit des rendus de scènes de qualité quantitativement supérieure sur plusieurs jeux de données de scènes différents.