PixNerd: Pixel Neural Field Diffusion

Der derzeitige Erfolg von Diffusions-Transformern beruht stark auf dem komprimierten Latentraum, der durch einen vortrainierten Variationalen Autoencoder (VAE) geformt wird. Dieses zweistufige Trainingsparadigma führt jedoch zwangsläufig zu akkumulierten Fehlern und Dekodierungsartefakten. Um diese Probleme anzugehen, kehren Forscher zu dem Pixelraum zurück – allerdings mit dem Preis komplexer Kaskaden-Pipelines und erhöhter Token-Komplexität. Im Gegensatz zu diesen Ansätzen schlagen wir vor, die Patch-weise Dekodierung mittels Neural Field zu modellieren und präsentieren eine einstufige, einheitliche, effiziente und end-to-end-Lösung, die als Pixel Neural Field Diffusion (PixelNerd) bezeichnet wird. Dank der effizienten Neural Field-Darstellung in PixelNerd erreichen wir direkt eine FID von 2,15 auf ImageNet $256\times256$ und 2,84 auf ImageNet $512\times512$, ohne auf komplexe Kaskaden-Pipelines oder einen VAE zurückgreifen zu müssen. Zudem erweitern wir unseren PixelNerd-Framework auf Text-zu-Bild-Anwendungen. Unser Modell PixelNerd-XXL/16 erzielt auf der GenEval-Benchmark eine konkurrenzfähige Gesamtpunktzahl von 0,73 und auf der DPG-Benchmark eine Gesamtpunktzahl von 80,9.