HyperAIHyperAI
il y a 2 jours

SceneGen : Génération de scènes 3D à partir d'une seule image en une seule passe d'avant-progression

Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
SceneGen : Génération de scènes 3D à partir d'une seule image en une seule passe d'avant-progression
Résumé

La génération de contenu 3D a récemment suscité un intérêt considérable dans la recherche, en raison de ses applications dans les domaines du VR/AR et de l’intelligence artificielle incarnée. Dans ce travail, nous abordons la tâche difficile de synthétiser plusieurs éléments 3D au sein d’une même image de scène. Plus précisément, nos contributions sont de nature quadripartite : (i) nous proposons SceneGen, un cadre novateur qui prend en entrée une image de scène et les masques correspondants des objets, et qui génère simultanément plusieurs éléments 3D accompagnés de leur géométrie et de leur texture. Notamment, SceneGen fonctionne sans nécessiter d’optimisation ni de récupération d’éléments préexistants ; (ii) nous introduisons un nouveau module d’agrégation de caractéristiques, qui intègre à la fois les informations locales et globales de la scène issues des encodeurs visuels et géométriques au sein du module d’extraction de caractéristiques. Associé à une tête de position, ce module permet de générer les éléments 3D ainsi que leurs positions spatiales relatives en une seule passe en avant ; (iii) nous démontrons la capacité directe d’extension de SceneGen aux scénarios à entrée multi-images. Malgré une formation uniquement sur des entrées mono-image, notre architecture permet d’améliorer significativement les performances de génération lorsqu’elle est utilisée avec des entrées multi-images ; et (iv) des évaluations quantitatives et qualitatives étendues confirment l’efficacité et la robustesse de notre approche. Nous pensons que ce paradigme offre une solution originale pour la génération de contenu 3D de haute qualité, pouvant potentiellement accélérer son application pratique dans des tâches ultérieures. Le code source et le modèle seront mis à disposition publiquement à l’adresse suivante : https://mengmouxu.github.io/SceneGen.