Command Palette
Search for a command to run...
Un petit pas dans l’espace latent, un grand bond pour les pixels : un adaptateur d’agrandissement latent rapide pour vos modèles de diffusion
Aleksandr Razin Danil Kazantsev Ilya Makarov

Résumé
Les modèles de diffusion peinent à s’adapter à des résolutions supérieures à celles de leur entraînement, car l’échantillonnage direct à haute résolution est lent et coûteux, tandis que la super-résolution d’image post-hoc (ISR) introduit des artefacts et un délai supplémentaire en agissant après le décodage. Nous proposons le Latent Upscaler Adapter (LUA), un module léger qui effectue la super-résolution directement sur le code latent du générateur, avant l’étape finale de décodage par VAE. LUA s’intègre comme un composant plug-and-play, sans nécessiter de modification du modèle de base ni d’étapes supplémentaires de diffusion, et permet la synthèse à haute résolution en une seule passe d’avant-propagation dans l’espace latent. Un noyau partagé de type Swin, associé à des têtes de type pixel-shuffle spécifiques à l’échelle, supporte des facteurs de 2x et 4x, tout en restant compatible avec les méthodes de base de super-résolution dans l’espace image, atteignant une qualité perceptive comparable avec près de 3 fois moins de temps de décodage et de suréchantillonnage (ajoutant seulement +0,42 s pour la génération à 1024 px à partir de 512 px, contre 1,87 s pour la super-résolution dans l’espace pixel avec la même architecture SwinIR). En outre, LUA démontre une forte généralisation sur les espaces latents de différents VAE, facilitant son déploiement sans re-entraînement complet pour chaque nouveau décodeur. Des expérimentations approfondies montrent que LUA reproduit fidèlement la qualité de la génération native à haute résolution, tout en offrant une voie pratique et efficace vers une synthèse d’images à grande échelle et de haute fidélité dans les pipelines de diffusion modernes.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.