HyperAIHyperAI
vor 3 Monaten

DiffuseVAE: Effiziente, steuerbare und hochfidele Generierung aus niedrigdimensionalen Latenten

Kushagra Pandey, Avideep Mukherjee, Piyush Rai, Abhishek Kumar
DiffuseVAE: Effiziente, steuerbare und hochfidele Generierung aus niedrigdimensionalen Latenten
Abstract

Diffusionsbasierte probabilistische Modelle haben sich auf mehreren anspruchsvollen Benchmarks für Bildsynthese als state-of-the-art erwiesen, weisen jedoch einen niedrigdimensionalen, interpretierbaren Latentraum sowie eine langsame Generierung auf. Im Gegensatz dazu verfügen herkömmliche Variational Autoencoder (VAEs) typischerweise über einen niedrigdimensionalen Latentraum, erzielen aber eine geringe Qualität der generierten Proben. Wir präsentieren DiffuseVAE, einen neuartigen generativen Rahmen, der einen VAE in eine Diffusionsmodellarchitektur integriert und hierauf aufbauend neuartige bedingte Parametrisierungen für Diffusionsmodelle entwirft. Wir zeigen, dass das resultierende Modell Diffusionsmodelle mit einem niedrigdimensionalen latenten Code ausgestattet, der mittels VAE inferiert wird und für nachgeschaltete Aufgaben wie kontrollierte Synthese genutzt werden kann. Die vorgeschlagene Methode verbessert zudem die Geschwindigkeit-Qualität-Trade-off, die bei herkömmlichen unconditionalen DDPM/DDIM-Modellen beobachtet wird (beispielsweise FID von 16,47 gegenüber 34,36 bei Verwendung eines standardmäßigen DDIM auf dem CelebA-HQ-128-Benchmark mit T = 10 Schritten im Rückwärtsprozess), ohne explizit für dieses Ziel trainiert zu werden. Darüber hinaus erreicht das vorgeschlagene Modell eine Synthesedichte, die mit state-of-the-art-Modellen auf etablierten Benchmarks wie CIFAR-10 und CelebA-64 vergleichbar ist und die meisten bestehenden VAE-basierten Ansätze übertrifft. Schließlich zeigen wir, dass die Methode eine inhärente Generalisierung gegenüber verschiedenen Arten von Rauschen im Bedingungssignal aufweist. Für Reproduzierbarkeit steht der Quellcode öffentlich unter https://github.com/kpandey008/DiffuseVAE zur Verfügung.