HyperAIHyperAI

Command Palette

Search for a command to run...

Simpler Diffusion (SiD2): 1,5 FID auf ImageNet512 mit Pixelraum-Diffusion

Emiel Hoogeboom Thomas Mensink Jonathan Heek Kay Lamerigts Ruiqi Gao Tim Salimans

Zusammenfassung

Latent-Diffusionsmodelle sind zur beliebten Wahl für die Skalierung von Diffusionsmodellen zur Synthese hochauflösender Bilder geworden. Im Vergleich zu pixelraum-basierten Modellen, die end-to-end trainiert werden, gelten Latent-Modelle als effizienter und in der Lage, bei hoher Auflösung eine höhere Bildqualität zu erzeugen. In dieser Arbeit stellen wir diese Annahmen in Frage und zeigen, dass pixelraum-basierte Modelle sowohl in Bezug auf Qualität als auch Effizienz mit Latent-Modellen konkurrieren können. Sie erreichen eine FID von 1,5 auf ImageNet512 und neue SOTA-Ergebnisse auf ImageNet128, ImageNet256 sowie Kinetics600.Wir präsentieren eine einfache Vorgehensweise zur Skalierung end-to-end pixelraum-basierter Diffusionsmodelle auf hohe Auflösungen: 1) Verwendung der Sigmoid-Verlustgewichtung (Kingma & Gao, 2023) mit unseren vorgegebenen Hyperparametern; 2) Einsatz unserer vereinfachten, speicher-effizienten Architektur mit weniger Skip-Verbindungen; 3) Skalierung des Modells dahingehend, dass der Fokus auf der Verarbeitung von Bildern in hoher Auflösung mit weniger Parametern liegt, anstatt mehr Parameter bei niedrigerer Auflösung einzusetzen. In Kombination mit Leitintervallen erhalten wir eine Familie pixelraum-basierter Diffusionsmodelle, die wir Simpler Diffusion (SiD2) nennen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Simpler Diffusion (SiD2): 1,5 FID auf ImageNet512 mit Pixelraum-Diffusion | Paper | HyperAI