Analyse und Verbesserung der Trainingsdynamik von Diffusionsmodellen

Diffusionsmodelle dominieren derzeit das Feld der datengetriebenen Bildsynthese aufgrund ihrer ungeahnten Skalierbarkeit auf große Datensätze. In diesem Paper identifizieren und beheben wir mehrere Ursachen für eine ungleichmäßige und ineffektive Trainingsdynamik im populären ADM-Diffusionsmodell-Architekturansatz, ohne deren hochlevel-Struktur zu verändern. Unter Beobachtung unkontrollierter Magnitudenveränderungen sowie von Ungleichgewichten sowohl in den Netzwerkaktivierungen als auch in den Gewichten während des Trainingsentwickeln wir eine Neugestaltung der Netzwerkschichten, um die Erwartungswerte von Aktivierungs-, Gewichts- und Aktualisierungsmagnituden zu erhalten. Wir stellen fest, dass die systematische Anwendung dieses Prinzips die beobachteten Drifts und Ungleichgewichte eliminiert und zu deutlich besseren Netzwerken bei gleichbleibender rechnerischer Komplexität führt. Unsere Modifikationen verbessern die bisherige Bestleistung an FID von 2,41 bei der ImageNet-512-Synthese auf 1,81, erreicht mittels schneller deterministischer Stichprobenziehung.Als unabhängiger Beitrag präsentieren wir eine Methode zur post-hoc-Einstellung der Parameter des exponentiellen gleitenden Durchschnitts (EMA), also nach Abschluss des Trainingslaufs. Dies ermöglicht eine präzise Anpassung der EMA-Länge ohne die Kosten mehrerer Trainingsläufe und offenbart überraschende Wechselwirkungen mit der Netzwerkarchitektur, der Trainingsdauer und der Leitungssteuerung.