LangScene-X : Reconstruire des scènes linguistiques 3D généralisables avec la diffusion vidéo TriMap

La récupération de structures 3D avec une compréhension de scène à vocabulaire ouvert à partir d'images 2D est une tâche fondamentale mais ardue. Les développements récents ont réussi à l'accomplir en effectuant une optimisation par scène avec des informations linguistiques intégrées. Cependant, ces méthodes dépendent fortement du paradigme de reconstruction dense avec calibration, ce qui entraîne des artefacts de rendu sévères et une synthèse sémantique peu plausible lorsque les vues sont limitées. Dans cet article, nous présentons un nouveau cadre génératif, baptisé LangScene-X, pour unifier et générer des informations multimodales cohérentes en 3D pour la reconstruction et la compréhension. Grâce à la capacité générative de créer des observations plus cohérentes, nous pouvons construire des scènes 3D généralisables intégrant le langage à partir de vues seulement éparse. Plus précisément, nous commençons par entraîner un modèle de diffusion vidéo TriMap capable de générer l'apparence (RVB), la géométrie (normales) et la sémantique (cartes de segmentation) à partir d'entrées éparse grâce à l'intégration progressive des connaissances. De plus, nous proposons un Compresseur Linguistique Quantifié (CLQ) [Language Quantized Compressor], formé sur des ensembles de données d'images à grande échelle, pour encoder efficacement les plongements linguistiques, permettant ainsi une généralisation inter-scènes sans reformation par scène. Enfin, nous reconstruisons les champs surfaciques linguistiques en alignant les informations linguistiques sur la surface des scènes 3D, ce qui permet des requêtes linguistiques ouvertes. Des expériences approfondies sur des données réelles montrent la supériorité de notre LangScene-X par rapport aux méthodes les plus avancées en termes de qualité et de généralisabilité. Page du projet : https://liuff19.github.io/LangScene-X.