La sémantique guide la voie : harmonisation de la modélisation sémantique et texturelle par diffusion latente asynchrone
La sémantique guide la voie : harmonisation de la modélisation sémantique et texturelle par diffusion latente asynchrone
Yueming Pan Ruoyu Feng Qi Dai Yuqi Wang Wenfeng Lin Mingyu Guo Chong Luo Nanning Zheng

Résumé
Les modèles de diffusion latents (LDMs) suivent intrinsèquement un processus de génération de grossier à fin, dans lequel la structure sémantique de haut niveau est générée légèrement avant les détails texturaux fins. Cela suggère que les éléments sémantiques préalables pourraient bénéficier à la génération texturale en fournissant une ancre sémantique. Les avancées récentes ont intégré des priori sémantiques issus d'encodeurs visuels pré-entraînés afin d'améliorer davantage les LDMs, mais elles continuent de désbruiter les représentations sémantiques et texturales encodées par le VAE de manière synchrone, négligeant ainsi cet ordre temporel. Observant ces limites, nous proposons Semantic-First Diffusion (SFD), un paradigme de diffusion latente qui privilégie explicitement la formation sémantique. SFD construit d'abord des latents composites en combinant un latent sémantique compact, extrait à partir d'un encodeur visuel pré-entraîné via un VAE sémantique dédié, avec le latent textural. Le cœur de SFD réside dans le désbruitage asynchrone des latents sémantiques et texturaux, utilisant des plans de bruit distincts : les éléments sémantiques précèdent les texturaux d'un décalage temporel, offrant ainsi une guidance de haut niveau plus claire pour le raffinement textural et permettant une génération naturelle de type grossier à fin. Sur ImageNet 256x256 avec guidance, SFD atteint un FID de 1,06 (LightningDiT-XL) et un FID de 1,04 (1,0B LightningDiT-XXL), tout en réalisant une convergence jusqu'à 100 fois plus rapide que le DiT original. SFD améliore également des méthodes existantes telles que ReDi et VA-VAE, démontrant l'efficacité du modèle asynchrone guidé par la sémantique. Page du projet et code : https://yuemingpan.github.io/SFD.github.io/.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.