Schéma d’échantillonnage et d’entraînement piloté par l’entropie pour la génération conditionnelle par diffusion

Le Modèle probabiliste de diffusion avec suppression de bruit (DDPM) est capable de générer des images conditionnelles de manière flexible, passant du bruit initial aux données réelles, en introduisant un classificateur indépendant sensible au bruit pour fournir une guidance par gradient conditionnel à chaque étape du processus de débruitage. Toutefois, en raison de la capacité du classificateur à distinguer aisément une image partiellement générée à partir de sa structure de haut niveau, le gradient — forme de guidance informationnelle relative à la classe — tend à disparaître prématurément, entraînant ainsi un effondrement du processus de génération conditionnelle vers un processus non conditionnel. Pour résoudre ce problème, nous proposons deux approches simples mais efficaces, considérées sous deux angles distincts. En ce qui concerne la procédure d’échantillonnage, nous introduisons l’entropie de la distribution prédite comme mesure du niveau de disparition de la guidance, et proposons une méthode d’ajustement adaptatif fondée sur l’entropie afin de restaurer de manière dynamique la guidance sémantique conditionnelle. En phase d’entraînement, nous proposons des objectifs d’optimisation sensibles à l’entropie, visant à atténuer les prédictions trop confiantes sur les données bruitées. Sur ImageNet1000 à une résolution de 256×256, avec notre schéma d’échantillonnage proposé et un classificateur entraîné, le modèle DDPM pré-entraîné conditionnel et non conditionnel atteint respectivement une amélioration de 10,89 % (de 4,59 à 4,09) et de 43,5 % (de 12 à 6,78) en FID. Le code est disponible à l’adresse suivante : https://github.com/ZGCTroy/ED-DPM.