HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse und Verbesserung der Trainingsdynamik von Diffusionsmodellen

Tero Karras Miika Aittala Jaakko Lehtinen Janne Hellsten Timo Aila Samuli Laine

Zusammenfassung

Diffusionsmodelle dominieren derzeit das Feld der datengetriebenen Bildsynthese aufgrund ihrer ungeahnten Skalierbarkeit auf große Datensätze. In diesem Paper identifizieren und beheben wir mehrere Ursachen für eine ungleichmäßige und ineffektive Trainingsdynamik im populären ADM-Diffusionsmodell-Architekturansatz, ohne deren hochlevel-Struktur zu verändern. Unter Beobachtung unkontrollierter Magnitudenveränderungen sowie von Ungleichgewichten sowohl in den Netzwerkaktivierungen als auch in den Gewichten während des Trainingsentwickeln wir eine Neugestaltung der Netzwerkschichten, um die Erwartungswerte von Aktivierungs-, Gewichts- und Aktualisierungsmagnituden zu erhalten. Wir stellen fest, dass die systematische Anwendung dieses Prinzips die beobachteten Drifts und Ungleichgewichte eliminiert und zu deutlich besseren Netzwerken bei gleichbleibender rechnerischer Komplexität führt. Unsere Modifikationen verbessern die bisherige Bestleistung an FID von 2,41 bei der ImageNet-512-Synthese auf 1,81, erreicht mittels schneller deterministischer Stichprobenziehung.Als unabhängiger Beitrag präsentieren wir eine Methode zur post-hoc-Einstellung der Parameter des exponentiellen gleitenden Durchschnitts (EMA), also nach Abschluss des Trainingslaufs. Dies ermöglicht eine präzise Anpassung der EMA-Länge ohne die Kosten mehrerer Trainingsläufe und offenbart überraschende Wechselwirkungen mit der Netzwerkarchitektur, der Trainingsdauer und der Leitungssteuerung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Analyse und Verbesserung der Trainingsdynamik von Diffusionsmodellen | Paper | HyperAI