HyperAIHyperAI

Command Palette

Search for a command to run...

DiffuseVAE: Effiziente, steuerbare und hochfidele Generierung aus niedrigdimensionalen Latenten

Kushagra Pandey Avideep Mukherjee Piyush Rai Abhishek Kumar

Zusammenfassung

Diffusionsbasierte probabilistische Modelle haben sich auf mehreren anspruchsvollen Benchmarks für Bildsynthese als state-of-the-art erwiesen, weisen jedoch einen niedrigdimensionalen, interpretierbaren Latentraum sowie eine langsame Generierung auf. Im Gegensatz dazu verfügen herkömmliche Variational Autoencoder (VAEs) typischerweise über einen niedrigdimensionalen Latentraum, erzielen aber eine geringe Qualität der generierten Proben. Wir präsentieren DiffuseVAE, einen neuartigen generativen Rahmen, der einen VAE in eine Diffusionsmodellarchitektur integriert und hierauf aufbauend neuartige bedingte Parametrisierungen für Diffusionsmodelle entwirft. Wir zeigen, dass das resultierende Modell Diffusionsmodelle mit einem niedrigdimensionalen latenten Code ausgestattet, der mittels VAE inferiert wird und für nachgeschaltete Aufgaben wie kontrollierte Synthese genutzt werden kann. Die vorgeschlagene Methode verbessert zudem die Geschwindigkeit-Qualität-Trade-off, die bei herkömmlichen unconditionalen DDPM/DDIM-Modellen beobachtet wird (beispielsweise FID von 16,47 gegenüber 34,36 bei Verwendung eines standardmäßigen DDIM auf dem CelebA-HQ-128-Benchmark mit T = 10 Schritten im Rückwärtsprozess), ohne explizit für dieses Ziel trainiert zu werden. Darüber hinaus erreicht das vorgeschlagene Modell eine Synthesedichte, die mit state-of-the-art-Modellen auf etablierten Benchmarks wie CIFAR-10 und CelebA-64 vergleichbar ist und die meisten bestehenden VAE-basierten Ansätze übertrifft. Schließlich zeigen wir, dass die Methode eine inhärente Generalisierung gegenüber verschiedenen Arten von Rauschen im Bedingungssignal aufweist. Für Reproduzierbarkeit steht der Quellcode öffentlich unter https://github.com/kpandey008/DiffuseVAE zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp