vor 2 Monaten

Hochaufgelöste Bildsynthese mit latenten Diffusionsmodellen

Rombach, Robin ; Blattmann, Andreas ; Lorenz, Dominik ; Esser, Patrick ; Ommer, Björn

Abstract

Durch die Zerlegung des Bildbildungsprozesses in eine sequenzielle Anwendung vonEntstörungs-Autoencodern erreichen Diffusionsmodelle (DMs) erstklassige Synthesenergebnisse beiBilddaten und darüber hinaus. Darüber hinaus ermöglicht ihre Formulierung ein Leitmechanismus, der denBildgenerierungsprozess ohne erneutes Training steuern kann. Allerdings verbrauchen die Optimierungmächtiger DMs aufgrund ihrer typischen direkten Operation im Pixelraum oft Hunderte von GPU-Tagen unddie Inferenz ist aufwendig, da sequenzielle Bewertungen erforderlich sind. Um das Training von DMs aufbegrenzten Rechenressourcen zu ermöglichen, während deren Qualität und Flexibilität beibehalten werden,wenden wir sie im Latenten Raum mächtiger vortrainierter Autoencoders an. Im Gegensatz zu früheren Arbeitenermöglicht das Training von Diffusionsmodellen auf einer solchen Repräsentation erstmals einen nahezu optimalenKompromiss zwischen Komplexitätsreduktion und Detailbewahrung, was die visuelle Treue stark verbessert.Durch die Einführung von Cross-Attention-Schichten in die Modellarchitektur verwandeln wir Diffusionsmodelle inmächtige und flexible Generatoren für allgemeine konditionierende Eingaben wie Text oder Begrenzungsrahmen,und hochaufgelöste Synthese wird in konvolutionärer Weise möglich. Unsere latenten Diffusionsmodelle (LDMs)erreichen einen neuen Stand der Technik bei der Bildinpainting und eine hochwettbewerbsfähige Leistung beiverschiedenen Aufgaben, einschließlich bedingungslosen Bildgenerierens, semantischer Szene-Synthese und Super-Resolution,während sie gleichzeitig die Rechenanforderungen im Vergleich zu pixelbasierten DMs erheblich reduzieren. Der Quellcode ist unterhttps://github.com/CompVis/latent-diffusion verfügbar.