Modèles de diffusion sans guidance sans classificateur

Cet article présente Model-guidance (MG), une nouvelle fonction objectif pour l'entraînement des modèles de diffusion, qui aborde et élimine la guidance sans classificateur (CFG), couramment utilisée. Notre approche innovante va au-delà de la modélisation classique de la seule distribution des données en intégrant la probabilité a posteriori des conditions. La technique proposée s'inspire de l'idée de la CFG, tout en étant simple à mettre en œuvre et hautement efficace, ce qui en fait un module plug-and-play facilement intégrable aux modèles existants. Notre méthode accélère significativement le processus d'entraînement, double la vitesse d'inférence et atteint une qualité exceptionnelle, égale voire supérieure à celle des modèles de diffusion concurrents utilisant la CFG. Des expériences étendues démontrent l'efficacité, l'efficience et la scalabilité de notre méthode sur divers modèles et jeux de données. Enfin, nous établissons un résultat de pointe sur les benchmarks ImageNet 256, avec un FID de 1,34. Notre code est disponible à l'adresse suivante : https://github.com/tzco/Diffusion-wo-CFG.