HyperAIHyperAI

Command Palette

Search for a command to run...

Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers

Wongi Jeong Kyungryeol Lee Hoigi Seo Se Young Chun

Zusammenfassung

Diffusions-Transformer haben sich als Alternative zu U-Net-basierten Diffusionsmodellen für die Generierung von hochwertigen Bildern und Videos etabliert und bieten eine bessere Skalierbarkeit. Dennoch bleibt ihre hohe Rechenanforderung ein großes Hindernis für die praktische Anwendung. Bestehende Beschleunigungsmethoden nutzen hauptsächlich die zeitliche Dimension, beispielsweise durch Wiederverwendung von zwischengespeicherten Merkmalen über verschiedene Diffusions-Schritte hinweg. In dieser Arbeit schlagen wir Region-Adaptive Latent Upsampling (RALU) vor, einen retrainingsfreien Ansatz, der die Inferenz entlang der räumlichen Dimension beschleunigt. RALU führt eine gemischte Auflösungsabtastung in drei Stufen durch: 1) Diffusion in der Niedrigauflösung zur effizienten Erfassung der globalen semantischen Struktur, 2) regionsspezifische Upsampling-Operationen in Bereichen, die anfällig für Artefakte bei voller Auflösung sind, und 3) vollständiges Upsampling aller Latent-Variablen bei voller Auflösung zur Feinabstimmung der Details. Um die Stabilität der Generierung während der Übergänge zwischen verschiedenen Auflösungen zu gewährleisten, nutzen wir eine Umplanung der Rausch-Zeitschritte, um den Rauschpegel an unterschiedliche Auflösungen anzupassen. Unsere Methode reduziert die Berechnungskosten erheblich, während die Bildqualität erhalten bleibt. Sie erreicht bis zu 7,0-fache Beschleunigung bei FLUX und 3,0-fache bei Stable Diffusion 3 mit minimaler Qualitätseinbuße. Darüber hinaus ist RALU mit bestehenden zeitbasierten Beschleunigungsmethoden wie Caching kompatibel und kann nahtlos integriert werden, um die Inferenzzeit weiter zu reduzieren, ohne die Generationsqualität zu beeinträchtigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers | Paper | HyperAI