HyperAIHyperAI
vor 17 Tagen

Geschnittene Konsistenzmodelle

Sangyun Lee, Yilun Xu, Tomas Geffner, Giulia Fanti, Karsten Kreis, Arash Vahdat, Weili Nie
Geschnittene Konsistenzmodelle
Abstract

Konsistenzmodelle wurden kürzlich eingeführt, um die Abtastung von Diffusionsmodellen zu beschleunigen, indem direkt die Lösung (d. h. die Daten) der Wahrscheinlichkeitsstrom-ODE (PF ODE) aus anfänglichem Rauschen vorhergesagt wird. Die Schätzung der Konsistenzmodelle erfordert jedoch, dass das Modell alle Zwischenpunkte entlang der PF ODE-Pfade auf ihre entsprechenden Endpunkte abbildet. Dieses Lernziel ist deutlich anspruchsvoller als die endgültige Aufgabe der einstufigen Generierung, die lediglich die Abbildung von Rauschen auf Daten in der PF ODE betrifft. Wir stellen empirisch fest, dass dieses Trainingsparadigma die Leistung einstufiger Generierung von Konsistenzmodellen einschränkt. Um dieses Problem zu lösen, verallgemeinern wir das Konsistenztraining auf einen abgeschnittenen Zeitbereich, wodurch das Modell die Entrauschungsaufgaben zu frühen Zeitpunkten ignorieren und stattdessen seine Kapazität auf die Generierung konzentrieren kann. Wir schlagen eine neue Parametrisierung der Konsistenzfunktion sowie ein zweistufiges Trainingsverfahren vor, das verhindert, dass das Training im abgeschnittenen Zeitbereich in eine triviale Lösung kollabiert. Experimente auf den Datensätzen CIFAR-10 und ImageNet $64\times64$ zeigen, dass unsere Methode sowohl bei einstufiger als auch bei zweistufiger Generierung bessere FID-Werte als die derzeit besten Konsistenzmodelle wie iCT-deep erreicht, und zwar mit Netzwerken, die mehr als 2-mal kleiner sind. Projektseite: https://truncated-cm.github.io/

Geschnittene Konsistenzmodelle | Neueste Forschungsarbeiten | HyperAI