Analyse et amélioration de la dynamique d'entraînement des modèles de diffusion

Les modèles de diffusion dominent actuellement le domaine de la synthèse d’images guidée par les données, grâce à leur capacité d’extension sans précédent sur de grands jeux de données. Dans cet article, nous identifions et corrigeons plusieurs causes de formation inégale et inefficace dans l’architecture de modèle de diffusion ADM, sans modifier sa structure de haut niveau. En observant des variations incontrôlées de l’amplitude ainsi que des déséquilibres tant dans les activations du réseau que dans ses poids au cours de l’entraînement, nous repensons la conception des couches du réseau afin de préserver, en espérance, les amplitudes des activations, des poids et des mises à jour. Nous constatons que l’application systématique de cette philosophie élimine les dérives et déséquilibres observés, conduisant à des réseaux nettement meilleurs pour une complexité computationnelle équivalente. Nos modifications améliorent le précédent record FID de 2,41 dans la synthèse ImageNet-512 à 1,81, obtenu grâce à un échantillonnage déterministe rapide.Comme contribution indépendante, nous proposons une méthode pour ajuster postérieurement les paramètres de la moyenne mobile exponentielle (EMA), c’est-à-dire après avoir terminé le processus d’entraînement. Cette approche permet un réglage précis de la longueur de la moyenne mobile sans avoir à effectuer plusieurs itérations d’entraînement, et met en évidence ses interactions surprenantes avec l’architecture du réseau, la durée d’entraînement et la guidance.