HyperAIHyperAI

Command Palette

Search for a command to run...

Synthèse d'images à haute résolution avec des modèles de diffusion latente

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Björn

Résumé

En décomposant le processus de formation d'images en une application séquentielle d'autoencodeurs débruiteurs, les modèles de diffusion (DMs) atteignent des résultats de synthèse de pointe sur les données d'images et au-delà. De plus, leur formulation permet un mécanisme de guidage pour contrôler le processus de génération d'images sans nécessiter un réentraînement. Cependant, comme ces modèles opèrent généralement directement dans l'espace des pixels, l'optimisation de DMs puissants consomme souvent plusieurs centaines de jours de calcul sur GPU, et l'inférence est coûteuse en raison des évaluations séquentielles.Pour permettre l'entraînement des DMs avec des ressources informatiques limitées tout en conservant leur qualité et leur flexibilité, nous les appliquons dans l'espace latent d'autoencodeurs préentraînés puissants. Contrairement aux travaux précédents, l'entraînement des modèles de diffusion sur une telle représentation permet pour la première fois d'atteindre un point quasi optimal entre la réduction de complexité et la préservation des détails, ce qui améliore considérablement la fidélité visuelle. En introduisant des couches d'attention croisée dans l'architecture du modèle, nous transformons les modèles de diffusion en générateurs puissants et flexibles pour diverses entrées conditionnelles telles que du texte ou des boîtes englobantes, rendant ainsi possible la synthèse à haute résolution par convolution.Nos modèles de diffusion latente (LDMs) atteignent un nouveau niveau d'excellence pour le remplissage d'images et offrent des performances très compétitives sur diverses tâches, notamment la génération d'images inconditionnelle, la synthèse sémantique de scènes et la super-résolution, tout en réduisant considérablement les exigences computationnelles par rapport aux DMs basés sur les pixels. Le code source est disponible à l'adresse suivante : https://github.com/CompVis/latent-diffusion .


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp