il y a 8 mois

Résumé

En décomposant le processus de formation d'images en une application séquentielle d'autoencodeurs débruiteurs, les modèles de diffusion (DMs) atteignent des résultats de synthèse de pointe sur les données d'images et au-delà. De plus, leur formulation permet un mécanisme de guidage pour contrôler le processus de génération d'images sans nécessiter un réentraînement. Cependant, comme ces modèles opèrent généralement directement dans l'espace des pixels, l'optimisation de DMs puissants consomme souvent plusieurs centaines de jours de calcul sur GPU, et l'inférence est coûteuse en raison des évaluations séquentielles.Pour permettre l'entraînement des DMs avec des ressources informatiques limitées tout en conservant leur qualité et leur flexibilité, nous les appliquons dans l'espace latent d'autoencodeurs préentraînés puissants. Contrairement aux travaux précédents, l'entraînement des modèles de diffusion sur une telle représentation permet pour la première fois d'atteindre un point quasi optimal entre la réduction de complexité et la préservation des détails, ce qui améliore considérablement la fidélité visuelle. En introduisant des couches d'attention croisée dans l'architecture du modèle, nous transformons les modèles de diffusion en générateurs puissants et flexibles pour diverses entrées conditionnelles telles que du texte ou des boîtes englobantes, rendant ainsi possible la synthèse à haute résolution par convolution.Nos modèles de diffusion latente (LDMs) atteignent un nouveau niveau d'excellence pour le remplissage d'images et offrent des performances très compétitives sur diverses tâches, notamment la génération d'images inconditionnelle, la synthèse sémantique de scènes et la super-résolution, tout en réduisant considérablement les exigences computationnelles par rapport aux DMs basés sur les pixels. Le code source est disponible à l'adresse suivante : https://github.com/CompVis/latent-diffusion .

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Björn

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Vision Par Ordinateur

Tâche

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Björn

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Synthèse d'images à haute résolution avec des modèles de diffusion latente

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Bj&#xf6;rn

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Synthèse d'images à haute résolution avec des modèles de diffusion latente

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Bj&#xf6;rn

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Synthèse d'images à haute résolution avec des modèles de diffusion latente

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Bj&#xf6;rn

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Björn

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Björn

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Björn