TwinFlow: Realisierung der One-step-Generierung auf großen Modellen mit selbstadversariellen Flüssen
TwinFlow: Realisierung der One-step-Generierung auf großen Modellen mit selbstadversariellen Flüssen
Zhenglin Cheng Peng Sun Jianguo Li Tao Lin

Abstract
Neuere Fortschritte bei großen multimodalen generativen Modellen haben beeindruckende Fähigkeiten im Bereich der multimodalen Generierung demonstriert, einschließlich der Bild- und Videogenerierung. Diese Modelle basieren typischerweise auf mehrstufigen Rahmenwerken wie Diffusion oder Flow Matching, die ihre Inferenz-Effizienz inhärent einschränken (erfordern 40–100 Number of Function Evaluations (NFEs)). Obwohl verschiedene Few-Step-Methoden darauf abzielen, die Inferenz zu beschleunigen, weisen bestehende Lösungen deutliche Grenzen auf. Prominente auf Distillation basierende Ansätze wie progressive und consistency distillation erfordern entweder einen iterativen Distillation-Prozess oder zeigen erhebliche Leistungsdegradation bei sehr wenigen Schritten (< 4-NFE). Gleichzeitig führt die Integration von adversarieller Trainingsstrategien in die Distillation (z. B. DMD/DMD2 und SANA-Sprint), um die Leistung zu verbessern, zu Trainingsinstabilität, erhöhter Komplexität und hohem GPU-Speicherverbrauch aufgrund zusätzlicher trainierter Modelle. Um diesem Problem zu begegnen, stellen wir TwinFlow vor – einen einfachen, aber effektiven Rahmen zur Trainings von 1-Schritt-generativen Modellen, der auf festen vortrainierten Lehrmodellen verzichtet und während des Trainings keine standardmäßigen adversariellen Netzwerke verwendet. Dadurch eignet sich TwinFlow ideal für die Entwicklung großer, effizienter Modelle. Auf Text-zu-Bild-Aufgaben erreicht unsere Methode bei nur 1-NFE einen GenEval-Score von 0,83 und übertrifft damit starke Baselines wie SANA-Sprint (ein GAN-Loss-basiertes Framework) und RCGM (ein Konsistenz-basiertes Framework). Besonders hervorzuheben ist die Skalierbarkeit von TwinFlow: Wir führen eine vollparameterbasierte Trainingsphase auf Qwen-Image-20B durch und transformieren das Modell in einen effizienten Few-Step-Generator. Mit lediglich 1-NFE erreicht unsere Methode die Leistung des ursprünglichen 100-NFE-Modells sowohl auf den GenEval- als auch auf den DPG-Bench-Benchmarks, wobei die Rechenkosten um den Faktor 100 reduziert werden, mit nur geringfügiger Qualitätsverschlechterung. Die Projektseite ist unter https://zhenglin-cheng.com/twinflow verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.