CityDreamer : Modèle génératif compositionnel de villes 3D illimitées

La génération de villes en 3D est une tâche souhaitable mais complexe, car les êtres humains sont particulièrement sensibles aux distorsions structurelles dans les environnements urbains. En outre, la génération de villes en 3D est plus complexe que celle de scènes naturelles en 3D, car les bâtiments, en tant qu’objets de la même catégorie, présentent une plus grande variété d’apparences par rapport aux objets naturels comme les arbres, dont l’apparence est relativement homogène. Pour relever ces défis, nous proposons \textbf{CityDreamer}, un modèle génératif compositionnel spécifiquement conçu pour les villes 3D illimitées. Notre idée centrale repose sur le fait que la génération de villes 3D doit être une composition de différents types de champs neuronaux : 1) des instances de bâtiments variées, et 2) des éléments de fond, tels que les routes et les espaces verts. Plus précisément, nous adoptons une représentation scénique vue du dessus (bird’s eye view) et utilisons un rendu volumétrique pour les champs neuronaux orientés vers les instances ainsi que ceux orientés vers les éléments de fond. Les cartes hachées génératives et les embeddings positionnels périodiques sont adaptés comme paramétrisation de scène afin de tenir compte des caractéristiques distinctes des instances de bâtiments et des éléments de fond. En outre, nous introduisons une suite de jeux de données appelés CityGen Datasets, incluant des données OSM et Google Earth, comprenant une vaste quantité d’images réelles de villes, afin d’améliorer la réalisme des villes 3D générées, tant au niveau de leur agencement que de leur apparence. CityDreamer atteint des performances de pointe, non seulement dans la génération de villes 3D réalistes, mais également dans les éditions localisées au sein des villes générées.