HyperAIHyperAI
vor 17 Tagen

Verbesserung des Trainings von rectified Flows

Sangyun Lee, Zinan Lin, Giulia Fanti
Verbesserung des Trainings von rectified Flows
Abstract

Diffusionsmodelle haben großes Versprechen für die Bild- und Videogenerierung gezeigt, doch die Stichprobenerzeugung aus modernsten Modellen erfordert aufwändige numerische Integration einer generativen ODE. Ein Ansatz zur Bewältigung dieses Problems sind rectified Flows, die iterativ glatte ODE-Pfade lernen, die weniger anfällig für Abbruchfehler sind. Dennoch erfordern rectified Flows weiterhin eine relativ hohe Anzahl an Funktionsauswertungen (NFEs). In dieser Arbeit stellen wir verbesserte Techniken zum Training von rectified Flows vor, die es ermöglichen, selbst im Bereich niedriger NFEs mit Knowledge-Distillation-Methoden konkurrieren zu können. Unser zentrales Insight ist, dass unter realistischen Bedingungen eine einzelne Iteration des Reflow-Algorithmus zum Training von rectified Flows ausreicht, um nahezu geradlinige Trajektorien zu lernen; somit ist die derzeitige Praxis, mehrere Reflow-Iterationen durchzuführen, überflüssig. Wir schlagen daher Techniken zur Verbesserung des einrundigen Trainings von rectified Flows vor, darunter eine U-förmige Zeitschrittverteilung und ein LPIPS-Huber-Premetrik. Mit diesen Techniken verbessern wir die FID des vorherigen 2-rectified Flow um bis zu 75 % im 1-NFE-Setting auf CIFAR-10. Auf ImageNet 64×64 übertrifft unser verbessertes rectified Flow die derzeitigen State-of-the-Art-Distillation-Methoden wie Consistency Distillation und Progressive Distillation sowohl im einstufigen als auch im zweistufigen Setting und erreicht in der FID-Leistung annähernd die von verbessertem Consistency Training (iCT). Der Quellcode ist unter https://github.com/sangyun884/rfpp verfügbar.