HyperAIHyperAI

Command Palette

Search for a command to run...

LangScene-X : Reconstruire des scènes linguistiques 3D généralisables avec la diffusion vidéo TriMap

Fangfu Liu Hao Li Jiawei Chi Hanyang Wang Minghui Yang Fudong Wang Yueqi Duan

Résumé

La récupération de structures 3D avec une compréhension de scène à vocabulaire ouvert à partir d'images 2D est une tâche fondamentale mais ardue. Les développements récents ont réussi à l'accomplir en effectuant une optimisation par scène avec des informations linguistiques intégrées. Cependant, ces méthodes dépendent fortement du paradigme de reconstruction dense avec calibration, ce qui entraîne des artefacts de rendu sévères et une synthèse sémantique peu plausible lorsque les vues sont limitées. Dans cet article, nous présentons un nouveau cadre génératif, baptisé LangScene-X, pour unifier et générer des informations multimodales cohérentes en 3D pour la reconstruction et la compréhension. Grâce à la capacité générative de créer des observations plus cohérentes, nous pouvons construire des scènes 3D généralisables intégrant le langage à partir de vues seulement éparse. Plus précisément, nous commençons par entraîner un modèle de diffusion vidéo TriMap capable de générer l'apparence (RVB), la géométrie (normales) et la sémantique (cartes de segmentation) à partir d'entrées éparse grâce à l'intégration progressive des connaissances. De plus, nous proposons un Compresseur Linguistique Quantifié (CLQ) [Language Quantized Compressor], formé sur des ensembles de données d'images à grande échelle, pour encoder efficacement les plongements linguistiques, permettant ainsi une généralisation inter-scènes sans reformation par scène. Enfin, nous reconstruisons les champs surfaciques linguistiques en alignant les informations linguistiques sur la surface des scènes 3D, ce qui permet des requêtes linguistiques ouvertes. Des expériences approfondies sur des données réelles montrent la supériorité de notre LangScene-X par rapport aux méthodes les plus avancées en termes de qualité et de généralisabilité. Page du projet : https://liuff19.github.io/LangScene-X.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LangScene-X : Reconstruire des scènes linguistiques 3D généralisables avec la diffusion vidéo TriMap | Articles | HyperAI