Alignement de représentation pour la génération : former des Transformers à diffusion est plus facile qu'on ne le pense

Des études récentes ont montré que le processus de débruitage dans les modèles de diffusion (génératifs) peut induire des représentations significatives (discriminatives) à l’intérieur du modèle, bien que la qualité de ces représentations reste encore inférieure à celle des représentations apprises par les méthodes d’apprentissage auto-supervisé récentes. Nous soutenons que l’un des principaux goulets d’étranglement dans l’entraînement de modèles de diffusion à grande échelle pour la génération réside dans l’apprentissage efficace de ces représentations. En outre, l’entraînement peut être considérablement simplifié en intégrant des représentations visuelles externes de haute qualité, plutôt que de compter uniquement sur les modèles de diffusion pour les apprendre de manière autonome. Nous explorons cette idée en introduisant une régularisation simple, appelée Alignement de Représentation (REPA), qui aligne les projections des états cachés d’entrée bruitée dans les réseaux de débruitage avec les représentations d’images propres issues d’encodeurs visuels externes pré-entraînés. Les résultats sont frappants : notre approche simple permet d’améliorer de manière significative à la fois l’efficacité de l’entraînement et la qualité de la génération lorsqu’elle est appliquée à des transformateurs populaires basés sur la diffusion ou les flux, tels que DiTs et SiTs. Par exemple, notre méthode permet d’accélérer l’entraînement de SiT de plus de 17,5 fois, atteignant une performance équivalente (sans guidance sans classificateur) à celle d’un modèle SiT-XL entraîné pendant 7 millions d’étapes en moins de 400 000 étapes. En ce qui concerne la qualité finale de génération, notre approche atteint des résultats de pointe, avec un score FID de 1,42, en utilisant la guidance sans classificateur et un intervalle de guidance.