HyperAIHyperAI

Command Palette

Search for a command to run...

Hochaufgelöste Bildsynthese mit latenten Diffusionsmodellen

Rombach Robin ; Blattmann Andreas ; Lorenz Dominik ; Esser Patrick ; Ommer Björn

Zusammenfassung

Durch die Zerlegung des Bildbildungsprozesses in eine sequenzielle Anwendung vonEntstörungs-Autoencodern erreichen Diffusionsmodelle (DMs) erstklassige Synthesenergebnisse beiBilddaten und darüber hinaus. Darüber hinaus ermöglicht ihre Formulierung ein Leitmechanismus, der denBildgenerierungsprozess ohne erneutes Training steuern kann. Allerdings verbrauchen die Optimierungmächtiger DMs aufgrund ihrer typischen direkten Operation im Pixelraum oft Hunderte von GPU-Tagen unddie Inferenz ist aufwendig, da sequenzielle Bewertungen erforderlich sind. Um das Training von DMs aufbegrenzten Rechenressourcen zu ermöglichen, während deren Qualität und Flexibilität beibehalten werden,wenden wir sie im Latenten Raum mächtiger vortrainierter Autoencoders an. Im Gegensatz zu früheren Arbeitenermöglicht das Training von Diffusionsmodellen auf einer solchen Repräsentation erstmals einen nahezu optimalenKompromiss zwischen Komplexitätsreduktion und Detailbewahrung, was die visuelle Treue stark verbessert.Durch die Einführung von Cross-Attention-Schichten in die Modellarchitektur verwandeln wir Diffusionsmodelle inmächtige und flexible Generatoren für allgemeine konditionierende Eingaben wie Text oder Begrenzungsrahmen,und hochaufgelöste Synthese wird in konvolutionärer Weise möglich. Unsere latenten Diffusionsmodelle (LDMs)erreichen einen neuen Stand der Technik bei der Bildinpainting und eine hochwettbewerbsfähige Leistung beiverschiedenen Aufgaben, einschließlich bedingungslosen Bildgenerierens, semantischer Szene-Synthese und Super-Resolution,während sie gleichzeitig die Rechenanforderungen im Vergleich zu pixelbasierten DMs erheblich reduzieren. Der Quellcode ist unterhttps://github.com/CompVis/latent-diffusion verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hochaufgelöste Bildsynthese mit latenten Diffusionsmodellen | Paper | HyperAI