HyperAIHyperAI

Command Palette

Search for a command to run...

Skalierbare Diffusionsmodelle mit Transformers

William Peebles Saining Xie

Zusammenfassung

Wir untersuchen eine neue Klasse von Diffusionsmodellen, die auf der Transformer-Architektur basieren. Wir trainieren latente Diffusionsmodelle für Bilder, wobei wir den üblicherweise verwendeten U-Net-Backbone durch einen Transformer ersetzen, der auf latente Patch-Teile operiert. Wir analysieren die Skalierbarkeit unserer Diffusion-Transformer (DiTs) unter dem Aspekt der Komplexität des Vorwärtsdurchlaufs, gemessen in Gflops. Wir stellen fest, dass DiTs mit höheren Gflops – durch erhöhte Transformer-Tiefe/Breite oder erhöhte Anzahl an Eingabepatch-Teilen – konsistent niedrigere FID-Werte aufweisen. Neben ihren guten Skalierbarkeitseigenschaften übertrifft unser größtes DiT-XL/2-Modell alle vorherigen Diffusionsmodelle bei den klassenbedingten ImageNet-512x512- und 256x256-Benchmarks und erreicht auf letzterem einen state-of-the-art-FID-Wert von 2,27.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp