HyperAIHyperAI
il y a 18 jours

Synthèse de scènes pilotée par le langage à l’aide d’un modèle de diffusion multi-conditionnel

{Anh Nguyen, Thieu Vo, Dzung Nguyen, Baoru Huang, Toan Tien Nguyen, Minh Nhat Vu, An Vuong}
Synthèse de scènes pilotée par le langage à l’aide d’un modèle de diffusion multi-conditionnel
Résumé

La synthèse de scène constitue un problème difficile présentant plusieurs applications industrielles. Récemment, des efforts considérables ont été consacrés à la génération de scènes à partir de mouvements humains, de plans d’aménagement d’intérieur ou de graphes spatiaux comme entrées. Toutefois, peu d’études ont abordé ce problème à travers plusieurs modalités, en particulier en combinant des promps textuels. Dans cet article, nous proposons une tâche de synthèse de scène pilotée par le langage, une nouvelle tâche qui intègre simultanément des promps textuels, des mouvements humains et des objets existants pour la synthèse de scènes. Contrairement aux tâches de synthèse à condition unique, notre problème repose sur plusieurs conditions, ce qui exige une stratégie pour traiter et encoder ces différentes informations dans un espace unifié. Pour relever ce défi, nous présentons un modèle de diffusion conditionnel multiple, qui se distingue de l’approche d’unification implicite utilisée dans la littérature existante des modèles de diffusion en prédisant explicitement les points directeurs de la distribution originale des données. Nous démontrons que notre approche est théoriquement fondée. Les résultats expérimentaux approfondis montrent que notre méthode surpasser les meilleures références existantes et permet des applications naturelles d’édition de scènes. Le code source et le jeu de données sont disponibles à l’adresse suivante : https://lang-scene-synth.github.io/.