Relay Diffusion : Unification du processus de diffusion à travers les résolutions pour la synthèse d'images

Les modèles de diffusion ont remporté un grand succès dans la synthèse d’images, mais restent confrontés à des défis en ce qui concerne la génération à haute résolution. En s’appuyant sur la transformation en cosinus discrète, nous identifions la principale cause : le même niveau de bruit sur une résolution plus élevée entraîne un rapport signal-sur-bruit plus élevé dans le domaine fréquentiel. Dans ce travail, nous proposons le Relay Diffusion Model (RDM), qui transfère une image ou un bruit à faible résolution vers une version équivalente à haute résolution via une diffusion floue et un bruit par blocs. Ainsi, le processus de diffusion peut se poursuivre de manière fluide à toute nouvelle résolution ou dans tout nouveau modèle, sans avoir à recommencer depuis un bruit pur ou une condition à faible résolution. Le RDM atteint un score FID de pointe sur CelebA-HQ et un score sFID de pointe sur ImageNet 256×256, dépassant largement les approches précédentes telles que ADM, LDM et DiT. Tous les codes source et les modèles entraînés sont disponibles sous licence libre à l’adresse suivante : \url{https://github.com/THUDM/RelayDiffusion}.