Éclaircir l'espace de conception de la génération diffusion guidée par classificateur

La guidance dans la génération par diffusion conditionnelle revêt une importance capitale en ce qui concerne la qualité des échantillons et la maîtrise du processus. Toutefois, les schémas de guidance actuels restent insatisfaisants. D’une part, les méthodes couramment utilisées, telles que la classifier guidance et la classifier-free guidance, nécessitent toutes deux une phase d’entraînement supplémentaire basée sur des données étiquetées, ce qui est coûteux en temps et incapable d’adapter facilement les modèles à de nouvelles conditions. D’autre part, les méthodes sans entraînement, comme la universal guidance, bien qu’offrant une plus grande flexibilité, n’ont pas encore démontré des performances comparables à celles des approches supervisées. Dans ce travail, grâce à une exploration approfondie de l’espace de conception, nous montrons qu’il est possible d’obtenir des améliorations significatives par rapport aux schémas de guidance existants en exploitant des classificateurs pré-entraînés disponibles, de manière entièrement sans entraînement, combinant ainsi les avantages des deux approches. En adoptant la calibration comme principe général, nous proposons plusieurs techniques de pré-conditionnement afin d’exploiter de manière plus efficace les classificateurs pré-entraînés disponibles pour guider la génération par diffusion. Des expériences étendues sur ImageNet valident notre méthode, démontrant que des modèles de diffusion d’avant-garde (DDPM, EDM, DiT) peuvent être améliorés de manière significative (jusqu’à 20 %) en utilisant des classificateurs pré-entraînés, avec un coût computationnel négligeable. Étant donné la diffusion croissante des classificateurs pré-entraînés accessibles publiquement, notre approche présente un fort potentiel et peut être facilement étendue aux tâches de génération image-texte. Le code est disponible à l’adresse suivante : https://github.com/AlexMaOLS/EluCD/tree/main.