Wavelet Diffusion Models sind schnelle und skalierbare Bildgeneratoren

Diffusionsmodelle erweisen sich als eine leistungsstarke Lösung für die hochfidele Bildgenerierung und übertrifft in vielen Fällen die Qualität von GANs. Allerdings stellt ihre langsame Trainings- und Inferenzgeschwindigkeit ein erhebliches Hindernis dar, das ihre Anwendung in Echtzeitanwendungen erschwert. Eine neuere Methode namens DiffusionGAN verringert die Ausführungszeit der Modelle erheblich, indem die Anzahl der Sampling-Schritte von Tausenden auf wenige reduziert wird. Dennoch bleiben ihre Geschwindigkeiten weiterhin deutlich hinter den GAN-Entsprechungen zurück. In dieser Arbeit wird ein neuartiges, wellenbasiertes Diffusionsverfahren vorgestellt, um diese Geschwindigkeitslücke zu schließen. Wir extrahieren über eine Wellenpacket-Zerlegung sowohl auf Bild- als auch auf Merkmalslevel niedrige und hohe Frequenzkomponenten und behandeln diese adaptiv, um eine schnellere Verarbeitung zu ermöglichen, ohne die Qualität der Generierung zu beeinträchtigen. Darüber hinaus schlagen wir die Einführung eines Rekonstruktionsterms vor, der die Konvergenz des Modelltrainings effektiv beschleunigt. Experimentelle Ergebnisse auf den Datensätzen CelebA-HQ, CIFAR-10, LSUN-Church und STL-10 belegen, dass unsere Lösung einen wichtigen Schritt hin zu realzeitfähigen und hochfidelitätsstarken Diffusionsmodellen darstellt. Der Quellcode und vortrainierte Checkpoints sind unter \url{https://github.com/VinAIResearch/WaveDiff.git} verfügbar.