Command Palette
Search for a command to run...
DyPE : Extrapolation de position dynamique pour la diffusion à très haute résolution
Noam Issachar Guy Yariv Sagie Benaim Yossi Adi Dani Lischinski Raanan Fattal

Résumé
Les modèles Diffusion Transformer sont capables de générer des images avec une fidélité et une précision remarquables, mais leur entraînement à des résolutions ultrahautes reste extrêmement coûteux en raison de l’échelle quadratique du mécanisme d’attention auto-associative par rapport au nombre de tokens d’image. Dans cet article, nous introduisons Dynamic Position Extrapolation (DyPE), une nouvelle méthode entraînement-intrinsèque qui permet aux modèles Diffusion Transformer pré-entraînés de synthétiser des images à des résolutions bien au-delà de celles de leurs données d’entraînement, sans coût supplémentaire d’échantillonnage. DyPE exploite la progression spectrale inhérente au processus de diffusion, dans lequel les structures à basse fréquence convergent tôt, tandis que les hautes fréquences nécessitent un plus grand nombre d’étapes pour être résolues. Plus précisément, DyPE ajuste dynamiquement le codage de position du modèle à chaque étape de diffusion, en alignant son spectre de fréquences avec l’étape courante du processus de génération. Cette approche permet de produire des images à des résolutions largement supérieures à la résolution d’entraînement, par exemple 16 millions de pixels à l’aide de FLUX. Sur plusieurs benchmarks, DyPE améliore de manière cohérente les performances et atteint un état de l’art en fidélité pour la génération d’images à ultra-haute résolution, les gains étant d’autant plus marqués à des résolutions plus élevées. La page du projet est disponible à l’adresse suivante : https://noamissachar.github.io/DyPE/.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.