Simpler Diffusion (SiD2): 1,5 FID auf ImageNet512 mit Pixelraum-Diffusion

Latent-Diffusionsmodelle sind zur beliebten Wahl für die Skalierung von Diffusionsmodellen zur Synthese hochauflösender Bilder geworden. Im Vergleich zu pixelraum-basierten Modellen, die end-to-end trainiert werden, gelten Latent-Modelle als effizienter und in der Lage, bei hoher Auflösung eine höhere Bildqualität zu erzeugen. In dieser Arbeit stellen wir diese Annahmen in Frage und zeigen, dass pixelraum-basierte Modelle sowohl in Bezug auf Qualität als auch Effizienz mit Latent-Modellen konkurrieren können. Sie erreichen eine FID von 1,5 auf ImageNet512 und neue SOTA-Ergebnisse auf ImageNet128, ImageNet256 sowie Kinetics600.Wir präsentieren eine einfache Vorgehensweise zur Skalierung end-to-end pixelraum-basierter Diffusionsmodelle auf hohe Auflösungen: 1) Verwendung der Sigmoid-Verlustgewichtung (Kingma & Gao, 2023) mit unseren vorgegebenen Hyperparametern; 2) Einsatz unserer vereinfachten, speicher-effizienten Architektur mit weniger Skip-Verbindungen; 3) Skalierung des Modells dahingehend, dass der Fokus auf der Verarbeitung von Bildern in hoher Auflösung mit weniger Parametern liegt, anstatt mehr Parameter bei niedrigerer Auflösung einzusetzen. In Kombination mit Leitintervallen erhalten wir eine Familie pixelraum-basierter Diffusionsmodelle, die wir Simpler Diffusion (SiD2) nennen.