il y a 17 jours

Relay Diffusion : Unification du processus de diffusion à travers les résolutions pour la synthèse d'images

Jiayan Teng, Wendi Zheng, Ming Ding, Wenyi Hong, Jianqiao Wangni, Zhuoyi Yang, Jie Tang

Résumé

Les modèles de diffusion ont remporté un grand succès dans la synthèse d’images, mais restent confrontés à des défis en ce qui concerne la génération à haute résolution. En s’appuyant sur la transformation en cosinus discrète, nous identifions la principale cause : le même niveau de bruit sur une résolution plus élevée entraîne un rapport signal-sur-bruit plus élevé dans le domaine fréquentiel. Dans ce travail, nous proposons le Relay Diffusion Model (RDM), qui transfère une image ou un bruit à faible résolution vers une version équivalente à haute résolution via une diffusion floue et un bruit par blocs. Ainsi, le processus de diffusion peut se poursuivre de manière fluide à toute nouvelle résolution ou dans tout nouveau modèle, sans avoir à recommencer depuis un bruit pur ou une condition à faible résolution. Le RDM atteint un score FID de pointe sur CelebA-HQ et un score sFID de pointe sur ImageNet 256×256, dépassant largement les approches précédentes telles que ADM, LDM et DiT. Tous les codes source et les modèles entraînés sont disponibles sous licence libre à l’adresse suivante : \url{https://github.com/THUDM/RelayDiffusion}.