Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

Diffusions-Transformer haben sich als Alternative zu U-Net-basierten Diffusionsmodellen für die Generierung von hochwertigen Bildern und Videos etabliert und bieten eine bessere Skalierbarkeit. Dennoch bleibt ihre hohe Rechenanforderung ein großes Hindernis für die praktische Anwendung. Bestehende Beschleunigungsmethoden nutzen hauptsächlich die zeitliche Dimension, beispielsweise durch Wiederverwendung von zwischengespeicherten Merkmalen über verschiedene Diffusions-Schritte hinweg. In dieser Arbeit schlagen wir Region-Adaptive Latent Upsampling (RALU) vor, einen retrainingsfreien Ansatz, der die Inferenz entlang der räumlichen Dimension beschleunigt. RALU führt eine gemischte Auflösungsabtastung in drei Stufen durch: 1) Diffusion in der Niedrigauflösung zur effizienten Erfassung der globalen semantischen Struktur, 2) regionsspezifische Upsampling-Operationen in Bereichen, die anfällig für Artefakte bei voller Auflösung sind, und 3) vollständiges Upsampling aller Latent-Variablen bei voller Auflösung zur Feinabstimmung der Details. Um die Stabilität der Generierung während der Übergänge zwischen verschiedenen Auflösungen zu gewährleisten, nutzen wir eine Umplanung der Rausch-Zeitschritte, um den Rauschpegel an unterschiedliche Auflösungen anzupassen. Unsere Methode reduziert die Berechnungskosten erheblich, während die Bildqualität erhalten bleibt. Sie erreicht bis zu 7,0-fache Beschleunigung bei FLUX und 3,0-fache bei Stable Diffusion 3 mit minimaler Qualitätseinbuße. Darüber hinaus ist RALU mit bestehenden zeitbasierten Beschleunigungsmethoden wie Caching kompatibel und kann nahtlos integriert werden, um die Inferenzzeit weiter zu reduzieren, ohne die Generationsqualität zu beeinträchtigen.