HyperAIHyperAI
vor 17 Tagen

Die Bewältigung des generativen Lern-Trilemmas mit Denoising-Diffusion-GANs

Zhisheng Xiao, Karsten Kreis, Arash Vahdat
Die Bewältigung des generativen Lern-Trilemmas mit Denoising-Diffusion-GANs
Abstract

In den vergangenen zehn Jahren wurden eine Vielzahl tiefer generativer Modelle entwickelt. Dennoch stoßen diese Modelle häufig auf Schwierigkeiten, drei zentrale Anforderungen gleichzeitig zu erfüllen: hohe Qualität der generierten Proben, umfassende Modenabdeckung und schnelles Sampling. Wir bezeichnen die durch diese Anforderungen aufgezwungene Herausforderung als generativen Lern-Trilemma, da bestehende Modelle oft Kompromisse zwischen diesen Aspekten eingehen müssen. Insbesondere haben Denoising-Diffusionsmodelle beeindruckende Probenqualität und Vielfalt gezeigt, doch ihre kostspielige Sampling-Prozedur verhindert bislang ihre Anwendung in vielen realen Anwendungen. In diesem Paper argumentieren wir, dass die langsame Sampling-Geschwindigkeit dieser Modelle grundlegend auf der Gauss-Annahme im Denoising-Schritt zurückzuführen ist, die lediglich für kleine Schrittweiten gerechtfertigt ist. Um Denoising mit großen Schritten zu ermöglichen und somit die Gesamtanzahl der Denoising-Schritte zu reduzieren, schlagen wir vor, die Denoising-Verteilung mittels einer komplexen multimodalen Verteilung zu modellieren. Wir führen Denoising-Diffusion-Generative Adversarial Networks (Denoising-Diffusion-GANs) ein, die jeden Denoising-Schritt mittels eines multimodalen bedingten GANs modellieren. Durch umfassende Evaluationen zeigen wir, dass Denoising-Diffusion-GANs eine Probenqualität und -vielfalt erreichen, die mit den ursprünglichen Diffusionsmodellen konkurrieren, gleichzeitig aber auf dem CIFAR-10-Datensatz 2000-mal schneller sind. Im Vergleich zu traditionellen GANs weist unser Modell eine bessere Modenabdeckung und größere Probenvielfalt auf. Soweit uns bekannt ist, ist das Denoising-Diffusion-GAN das erste Modell, das die Sampling-Kosten in Diffusionsmodellen derart reduziert, dass diese für reale Anwendungen kostengünstig einsetzbar werden. Projektseite und Code sind unter https://nvlabs.github.io/denoising-diffusion-gan verfügbar.