Command Palette
Search for a command to run...
PaGoDA : Croissance progressive d’un générateur à une étape à partir d’un enseignant de diffusion à faible résolution
PaGoDA : Croissance progressive d’un générateur à une étape à partir d’un enseignant de diffusion à faible résolution
Dongjun Kim Chieh-Hsin Lai Wei-Hsiang Liao Yuhta Takida Naoki Murata Toshimitsu Uesaka Yuki Mitsufuji Stefano Ermon
Résumé
Le modèle de diffusion se distingue par ses performances remarquables dans la génération de contenus à haute dimension, mais il est particulièrement coûteux en termes de calcul, notamment durant l'entraînement. Nous proposons PaGoDA (Progressive Growing of Diffusion Autoencoder), une nouvelle architecture permettant de réduire significativement les coûts d'entraînement en trois étapes : l'entraînement du modèle de diffusion sur des données sous-échantillonnées, la distillation du modèle de diffusion pré-entraîné, puis une super-résolution progressive. Grâce à cette approche, PaGoDA parvient à réduire de 64 fois les coûts d'entraînement de son modèle de diffusion lorsqu'il est appliqué à des données sous-échantillonnées à un facteur 8. En phase d'inférence, grâce à une étape unique, PaGoDA atteint des performances de pointe sur ImageNet pour toutes les résolutions allant de 64×64 à 512×512, ainsi que dans des tâches de génération d’images à partir de texte. La pipeline de PaGoDA peut être directement appliquée dans l’espace latent, en combinant compression et pré-entraînement via un autoencodeur pré-entraîné, comme dans les modèles de diffusion latente (par exemple, Stable Diffusion). Le code source est disponible à l’adresse suivante : https://github.com/sony/pagoda.