HyperAIHyperAI

Command Palette

Search for a command to run...

PixNerd: Pixel Neural Field Diffusion

Shuai Wang Ziteng Gao Chenhui Zhu Weilin Huang Limin Wang

Zusammenfassung

Der derzeitige Erfolg von Diffusions-Transformern beruht stark auf dem komprimierten Latentraum, der durch einen vortrainierten Variationalen Autoencoder (VAE) geformt wird. Dieses zweistufige Trainingsparadigma führt jedoch zwangsläufig zu akkumulierten Fehlern und Dekodierungsartefakten. Um diese Probleme anzugehen, kehren Forscher zu dem Pixelraum zurück – allerdings mit dem Preis komplexer Kaskaden-Pipelines und erhöhter Token-Komplexität. Im Gegensatz zu diesen Ansätzen schlagen wir vor, die Patch-weise Dekodierung mittels Neural Field zu modellieren und präsentieren eine einstufige, einheitliche, effiziente und end-to-end-Lösung, die als Pixel Neural Field Diffusion (PixelNerd) bezeichnet wird. Dank der effizienten Neural Field-Darstellung in PixelNerd erreichen wir direkt eine FID von 2,15 auf ImageNet 256×256256\times256256×256 und 2,84 auf ImageNet 512×512512\times512512×512, ohne auf komplexe Kaskaden-Pipelines oder einen VAE zurückgreifen zu müssen. Zudem erweitern wir unseren PixelNerd-Framework auf Text-zu-Bild-Anwendungen. Unser Modell PixelNerd-XXL/16 erzielt auf der GenEval-Benchmark eine konkurrenzfähige Gesamtpunktzahl von 0,73 und auf der DPG-Benchmark eine Gesamtpunktzahl von 80,9.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PixNerd: Pixel Neural Field Diffusion | Paper | HyperAI