vor 17 Tagen

PaGoDA: Progressive Wachstum eines Ein-Schritt-Generators aus einem Diffusionslehrer mit geringer Auflösung

Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon

Details der Forschungsarbeit anzeigen

PaGoDA: Progressive Wachstum eines Ein-Schritt-Generators aus einem Diffusionslehrer mit geringer Auflösung

Abstract

Der Diffusionsmodell zeigt hervorragende Leistung bei der Generierung hochdimensionaler Inhalte, ist jedoch rechenintensiv, insbesondere während des Trainings. Wir stellen einen neuen Ansatz namens Progressive Growing of Diffusion Autoencoder (PaGoDA) vor, der die Trainingskosten durch drei Phasen reduziert: das Training der Diffusion auf heruntergekoppelten Daten, das Distillieren des vortrainierten Diffusionsmodells sowie die progressive Super-Resolution. Mit dem vorgeschlagenen Pipeline-Ansatz erreicht PaGoDA eine Reduktion der Trainingskosten um den Faktor 64 beim Training des Diffusionsmodells auf 8-fach heruntergekoppelten Daten; im Inference-Modus erzielt es state-of-the-art Ergebnisse auf ImageNet bei allen Auflösungen von 64×64 bis 512×512 sowie im Text-zu-Bild-Generierungs-Task, wobei lediglich ein einziger Schritt erforderlich ist. Die Pipeline von PaGoDA lässt sich direkt im latente Raum anwenden und bietet gleichzeitig Kompression, wenn sie in Kombination mit einem vortrainierten Autoencoder in Latent Diffusion Models (z. B. Stable Diffusion) eingesetzt wird. Der Quellcode ist unter https://github.com/sony/pagoda verfügbar.