Latentes Diffusionsmodell ohne Variationalen Autoencoder
Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Abstract
In jüngster Zeit beruht der Fortschritt bei diffusionbasierten visuellen Generierungsmodellen weitgehend auf latenzbasierten Diffusionsmodellen mit variationalen Autoencodern (VAEs). Obwohl diese VAE+Diffusion-Paradigma effektiv für die Synthese hochwertiger Bilder ist, leidet es unter eingeschränkter Trainingseffizienz, langsamer Inferenz und schlechter Übertragbarkeit auf breitere visuelle Aufgaben. Diese Probleme resultieren aus einer zentralen Beschränkung der VAE-Latenträume: dem Fehlen klarer semantischer Trennbarkeit und einer starken diskriminativen Struktur. Unsere Analyse bestätigt, dass diese Eigenschaften nicht nur für Aufgaben der Wahrnehmung und Interpretation entscheidend sind, sondern auch für eine stabile und effiziente Trainingsdynamik latenzbasierter Diffusionsmodelle von zentraler Bedeutung sind. Ausgehend von diesem Erkenntnis stellen wir SVG vor – ein neuartiges latenzbasiertes Diffusionsmodell, das auf variationalen Autoencodern verzichtet und stattdessen selbstüberwachte Darstellungen für die visuelle Generierung nutzt. SVG konstruiert einen Merkmalsraum mit klarer semantischer Diskriminierbarkeit durch Ausnutzung gefrorener DINO-Merkmale, während ein leichtgewichtiges Residual-Branch feinere Details erfasst, um eine hochauflösende Rekonstruktion zu ermöglichen. Diffusionsmodelle werden direkt in diesem semantisch strukturierten Latenzraum trainiert, was einen effizienteren Lernprozess fördert. Als Ergebnis ermöglicht SVG beschleunigtes Training von Diffusionsmodellen, unterstützt Sampling mit wenigen Schritten und verbessert die Qualität der Generierung. Experimentelle Ergebnisse zeigen zudem, dass SVG die semantischen und diskriminativen Fähigkeiten der zugrundeliegenden selbstüberwachten Darstellungen bewahrt und somit einen prinzipiengeleiteten Weg hin zu allgemein anwendbaren, hochwertigen visuellen Darstellungen eröffnet.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.