HyperAIHyperAI

Command Palette

Search for a command to run...

vor 8 Tagen

Latentes Diffusionsmodell ohne Variationalen Autoencoder

Minglei Shi Haolin Wang Wenzhao Zheng Ziyang Yuan Xiaoshi Wu Xintao Wang Pengfei Wan Jie Zhou Jiwen Lu

Latentes Diffusionsmodell ohne Variationalen Autoencoder

Abstract

In jüngster Zeit beruht der Fortschritt bei diffusionbasierten visuellen Generierungsmodellen weitgehend auf latenzbasierten Diffusionsmodellen mit variationalen Autoencodern (VAEs). Obwohl diese VAE+Diffusion-Paradigma effektiv für die Synthese hochwertiger Bilder ist, leidet es unter eingeschränkter Trainingseffizienz, langsamer Inferenz und schlechter Übertragbarkeit auf breitere visuelle Aufgaben. Diese Probleme resultieren aus einer zentralen Beschränkung der VAE-Latenträume: dem Fehlen klarer semantischer Trennbarkeit und einer starken diskriminativen Struktur. Unsere Analyse bestätigt, dass diese Eigenschaften nicht nur für Aufgaben der Wahrnehmung und Interpretation entscheidend sind, sondern auch für eine stabile und effiziente Trainingsdynamik latenzbasierter Diffusionsmodelle von zentraler Bedeutung sind. Ausgehend von diesem Erkenntnis stellen wir SVG vor – ein neuartiges latenzbasiertes Diffusionsmodell, das auf variationalen Autoencodern verzichtet und stattdessen selbstüberwachte Darstellungen für die visuelle Generierung nutzt. SVG konstruiert einen Merkmalsraum mit klarer semantischer Diskriminierbarkeit durch Ausnutzung gefrorener DINO-Merkmale, während ein leichtgewichtiges Residual-Branch feinere Details erfasst, um eine hochauflösende Rekonstruktion zu ermöglichen. Diffusionsmodelle werden direkt in diesem semantisch strukturierten Latenzraum trainiert, was einen effizienteren Lernprozess fördert. Als Ergebnis ermöglicht SVG beschleunigtes Training von Diffusionsmodellen, unterstützt Sampling mit wenigen Schritten und verbessert die Qualität der Generierung. Experimentelle Ergebnisse zeigen zudem, dass SVG die semantischen und diskriminativen Fähigkeiten der zugrundeliegenden selbstüberwachten Darstellungen bewahrt und somit einen prinzipiengeleiteten Weg hin zu allgemein anwendbaren, hochwertigen visuellen Darstellungen eröffnet.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Latentes Diffusionsmodell ohne Variationalen Autoencoder | Forschungsarbeiten | HyperAI