HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 10 jours

Un petit pas dans l’espace latent, un grand bond pour les pixels : un adaptateur d’agrandissement latent rapide pour vos modèles de diffusion

Aleksandr Razin Danil Kazantsev Ilya Makarov

Un petit pas dans l’espace latent, un grand bond pour les pixels : un adaptateur d’agrandissement latent rapide pour vos modèles de diffusion

Résumé

Les modèles de diffusion peinent à s’adapter à des résolutions supérieures à celles de leur entraînement, car l’échantillonnage direct à haute résolution est lent et coûteux, tandis que la super-résolution d’image post-hoc (ISR) introduit des artefacts et un délai supplémentaire en agissant après le décodage. Nous proposons le Latent Upscaler Adapter (LUA), un module léger qui effectue la super-résolution directement sur le code latent du générateur, avant l’étape finale de décodage par VAE. LUA s’intègre comme un composant plug-and-play, sans nécessiter de modification du modèle de base ni d’étapes supplémentaires de diffusion, et permet la synthèse à haute résolution en une seule passe d’avant-propagation dans l’espace latent. Un noyau partagé de type Swin, associé à des têtes de type pixel-shuffle spécifiques à l’échelle, supporte des facteurs de 2x et 4x, tout en restant compatible avec les méthodes de base de super-résolution dans l’espace image, atteignant une qualité perceptive comparable avec près de 3 fois moins de temps de décodage et de suréchantillonnage (ajoutant seulement +0,42 s pour la génération à 1024 px à partir de 512 px, contre 1,87 s pour la super-résolution dans l’espace pixel avec la même architecture SwinIR). En outre, LUA démontre une forte généralisation sur les espaces latents de différents VAE, facilitant son déploiement sans re-entraînement complet pour chaque nouveau décodeur. Des expérimentations approfondies montrent que LUA reproduit fidèlement la qualité de la génération native à haute résolution, tout en offrant une voie pratique et efficace vers une synthèse d’images à grande échelle et de haute fidélité dans les pipelines de diffusion modernes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Un petit pas dans l’espace latent, un grand bond pour les pixels : un adaptateur d’agrandissement latent rapide pour vos modèles de diffusion | Articles de recherche | HyperAI