Ein kleiner Schritt in der Latenten, ein riesiger Sprung für Pixel: Schneller Latent-Up-Scaling-Adapter für Ihre Diffusionsmodelle
Aleksandr Razin Danil Kazantsev Ilya Makarov

Abstract
Diffusionsmodelle stoßen bei der Skalierung über ihre Trainingsauflösungen hinaus auf Schwierigkeiten, da die direkte Erzeugung von Bildern in hoher Auflösung langsam und kostspielig ist, während nachträgliche Bild-Super-Resolution (ISR) Artefakte einführt und zusätzliche Latenz durch eine Nachbearbeitung nach der Dekodierung verursacht. Wir stellen den Latent Upscaler Adapter (LUA) vor, einen leichtgewichtigen Modul, der die Super-Resolution direkt auf dem Latentcode des Generators vor dem letzten VAE-Dekodierungsschritt durchführt. LUA integriert sich als Plug-and-Play-Komponente, erfordert keine Änderungen am Basismodell oder zusätzliche Diffusionsstufen und ermöglicht die Synthese in hoher Auflösung durch einen einzigen Feed-Forward-Durchlauf im Latentraum. Ein gemeinsamer Swin-artiger Backbone mit skalenabhängigen Pixel-Shuffle-Köpfen unterstützt Faktoren von 2x und 4x und bleibt mit Bildraum-basierten SR-Baselines kompatibel. Dabei erreicht LUA vergleichbare perceptuelle Qualität bei nahezu drei Mal geringerer Dekodier- und Skalierzeit (zusätzliche +0,42 s für die Generierung von 1024 px aus 512 px gegenüber 1,87 s bei Pixelraum-SR mit derselben SwinIR-Architektur). Darüber hinaus zeigt LUA eine starke Generalisierbarkeit über die Latenträume verschiedener VAEs hinweg, was eine einfache Bereitstellung ohne Neutrainings für jeden neuen Decoder ermöglicht. Umfangreiche Experimente zeigen, dass LUA die Treue der nativen Hochauflösungsgenerierung nahezu erreicht und gleichzeitig einen praktischen und effizienten Weg zur skalierbaren, hochfidelitätsorientierten Bildsynthese in modernen Diffusions-Pipelines eröffnet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.