Suréchantillonner ce qui compte : un échantillonnage latent adaptatif par région pour des transformateurs de diffusion accélérés

Les transformateurs de diffusion se sont imposés comme une alternative aux modèles de diffusion basés sur U-Net pour la génération d'images et de vidéos de haute fidélité, offrant une meilleure scalabilité. Cependant, leur lourdeur computationnelle reste un obstacle majeur pour leur déploiement dans des environnements réels. Les méthodes d'accélération existantes exploitent principalement la dimension temporelle, comme la réutilisation de caractéristiques mises en cache entre les étapes de diffusion. Dans cette étude, nous proposons Region-Adaptive Latent Upsampling (RALU), un cadre d'accélération sans entraînement qui accélère l'inférence dans la dimension spatiale. RALU effectue un échantillonnage à résolution mixte à travers trois étapes : 1) la diffusion latente de désinfection à faible résolution pour capturer efficacement la structure sémantique globale, 2) une interpolation adaptée aux régions sur des zones spécifiques sensibles aux artefacts à résolution pleine, et 3) une interpolation de toutes les latences à résolution pleine pour affiner les détails. Pour stabiliser les générations lors des transitions de résolution, nous utilisons un réaménagement du pas de bruit (noise-timestep rescheduling) afin d'adapter le niveau de bruit à différentes résolutions. Notre méthode réduit significativement les calculs tout en préservant la qualité des images, en atteignant un accélération de 7,0 fois sur FLUX et de 3,0 fois sur Stable Diffusion 3, avec une dégradation minimale. De plus, RALU est compatible avec les accélérations temporelles existantes, comme les méthodes de mise en cache, permettant ainsi une intégration fluide pour réduire davantage la latence d'inférence sans compromettre la qualité de la génération.