Skalierbare Diffusionsmodelle mit Transformers

Wir untersuchen eine neue Klasse von Diffusionsmodellen, die auf der Transformer-Architektur basieren. Wir trainieren latente Diffusionsmodelle für Bilder, wobei wir den üblicherweise verwendeten U-Net-Backbone durch einen Transformer ersetzen, der auf latente Patch-Teile operiert. Wir analysieren die Skalierbarkeit unserer Diffusion-Transformer (DiTs) unter dem Aspekt der Komplexität des Vorwärtsdurchlaufs, gemessen in Gflops. Wir stellen fest, dass DiTs mit höheren Gflops – durch erhöhte Transformer-Tiefe/Breite oder erhöhte Anzahl an Eingabepatch-Teilen – konsistent niedrigere FID-Werte aufweisen. Neben ihren guten Skalierbarkeitseigenschaften übertrifft unser größtes DiT-XL/2-Modell alle vorherigen Diffusionsmodelle bei den klassenbedingten ImageNet-512x512- und 256x256-Benchmarks und erreicht auf letzterem einen state-of-the-art-FID-Wert von 2,27.