Darstellungsausrichtung für die Generierung: Die Schulung von Diffusion-Transformern ist einfacher, als man denkt

Neuere Studien haben gezeigt, dass der Denoising-Prozess in (generativen) Diffusionsmodellen sinnvolle (diskriminative) Repräsentationen innerhalb des Modells erzeugen kann, obwohl die Qualität dieser Repräsentationen weiterhin hinter jenen zurückbleibt, die durch moderne selbstüberwachte Lernmethoden erlernt werden. Wir argumentieren, dass ein zentrales Hindernis bei der Trainingsskalierung großer Diffusionsmodelle für die Generierung darin besteht, diese Repräsentationen effektiv zu lernen. Darüber hinaus kann das Training vereinfacht werden, indem hochwertige externe visuelle Repräsentationen integriert werden, anstatt sich ausschließlich auf das selbstständige Erlernen dieser Repräsentationen durch die Diffusionsmodelle zu verlassen. Wir untersuchen dies, indem wir eine einfache Regularisierung einführen, die wir REPresentation Alignment (REPA) nennen, welche die Projektionen verunreinigter Eingabezustände in den Denoising-Netzwerken mit sauberen Bildrepräsentationen aus externen, vortrainierten visuellen Encodern ausrichtet. Die Ergebnisse sind beeindruckend: Unsere einfache Strategie führt zu erheblichen Verbesserungen sowohl in Bezug auf die Trainingseffizienz als auch auf die Generationsqualität, wenn sie auf verbreitete Diffusions- und Fluss-basierte Transformer wie DiTs und SiTs angewendet wird. Beispielsweise beschleunigt unsere Methode die SiT-Trainingszeit um über 17,5-fach und erreicht die Leistung eines SiT-XL-Modells, das 7 Millionen Schritte trainiert wurde, in weniger als 400.000 Schritten (ohne Klassifikatorfreie Führung). In Bezug auf die endgültige Generationsqualität erzielt unser Ansatz mit klassifikatorfreier Führung und geeigneter Führungsspanne einen FID-Wert von 1,42 – ein Stand der Technik.