HyperAIHyperAI

Command Palette

Search for a command to run...

PaGoDA: Progressive Wachstum eines Ein-Schritt-Generators aus einem Diffusionslehrer mit geringer Auflösung

Dongjun Kim Chieh-Hsin Lai Wei-Hsiang Liao Yuhta Takida Naoki Murata Toshimitsu Uesaka Yuki Mitsufuji Stefano Ermon

Zusammenfassung

Der Diffusionsmodell zeigt hervorragende Leistung bei der Generierung hochdimensionaler Inhalte, ist jedoch rechenintensiv, insbesondere während des Trainings. Wir stellen einen neuen Ansatz namens Progressive Growing of Diffusion Autoencoder (PaGoDA) vor, der die Trainingskosten durch drei Phasen reduziert: das Training der Diffusion auf heruntergekoppelten Daten, das Distillieren des vortrainierten Diffusionsmodells sowie die progressive Super-Resolution. Mit dem vorgeschlagenen Pipeline-Ansatz erreicht PaGoDA eine Reduktion der Trainingskosten um den Faktor 64 beim Training des Diffusionsmodells auf 8-fach heruntergekoppelten Daten; im Inference-Modus erzielt es state-of-the-art Ergebnisse auf ImageNet bei allen Auflösungen von 64×64 bis 512×512 sowie im Text-zu-Bild-Generierungs-Task, wobei lediglich ein einziger Schritt erforderlich ist. Die Pipeline von PaGoDA lässt sich direkt im latente Raum anwenden und bietet gleichzeitig Kompression, wenn sie in Kombination mit einem vortrainierten Autoencoder in Latent Diffusion Models (z. B. Stable Diffusion) eingesetzt wird. Der Quellcode ist unter https://github.com/sony/pagoda verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp