HyperAIHyperAI
il y a 2 mois

Synthèse d'images à haute résolution avec des modèles de diffusion latente

Rombach, Robin ; Blattmann, Andreas ; Lorenz, Dominik ; Esser, Patrick ; Ommer, Björn
Synthèse d'images à haute résolution avec des modèles de diffusion latente
Résumé

En décomposant le processus de formation d'images en une application séquentielle d'autoencodeurs débruiteurs, les modèles de diffusion (DMs) atteignent des résultats de synthèse de pointe sur les données d'images et au-delà. De plus, leur formulation permet un mécanisme de guidage pour contrôler le processus de génération d'images sans nécessiter un réentraînement. Cependant, comme ces modèles opèrent généralement directement dans l'espace des pixels, l'optimisation de DMs puissants consomme souvent plusieurs centaines de jours de calcul sur GPU, et l'inférence est coûteuse en raison des évaluations séquentielles.Pour permettre l'entraînement des DMs avec des ressources informatiques limitées tout en conservant leur qualité et leur flexibilité, nous les appliquons dans l'espace latent d'autoencodeurs préentraînés puissants. Contrairement aux travaux précédents, l'entraînement des modèles de diffusion sur une telle représentation permet pour la première fois d'atteindre un point quasi optimal entre la réduction de complexité et la préservation des détails, ce qui améliore considérablement la fidélité visuelle. En introduisant des couches d'attention croisée dans l'architecture du modèle, nous transformons les modèles de diffusion en générateurs puissants et flexibles pour diverses entrées conditionnelles telles que du texte ou des boîtes englobantes, rendant ainsi possible la synthèse à haute résolution par convolution.Nos modèles de diffusion latente (LDMs) atteignent un nouveau niveau d'excellence pour le remplissage d'images et offrent des performances très compétitives sur diverses tâches, notamment la génération d'images inconditionnelle, la synthèse sémantique de scènes et la super-résolution, tout en réduisant considérablement les exigences computationnelles par rapport aux DMs basés sur les pixels. Le code source est disponible à l'adresse suivante : https://github.com/CompVis/latent-diffusion .

Synthèse d'images à haute résolution avec des modèles de diffusion latente | Articles de recherche récents | HyperAI