La perturbation d'entrée réduit le biais d'exposition dans les modèles de diffusion

Les modèles probabilistes diffusifs débruitants (Denoising Diffusion Probabilistic Models, DDPM) ont démontré une qualité de génération remarquable, bien que leur chaîne d’échantillonnage longue entraîne des coûts computationnels élevés. Dans ce travail, nous observons qu’une chaîne d’échantillonnage prolongée entraîne également un phénomène d’accumulation d’erreurs, similaire au problème de biais d’exposition rencontré dans la génération autoregressive de texte. Plus précisément, nous constatons un écart entre l’apprentissage et l’évaluation : pendant l’apprentissage, les données sont conditionnées sur les échantillons réels (ground truth), tandis que pendant l’évaluation, elles sont conditionnées sur les résultats précédemment générés. Pour atténuer ce problème, nous proposons une régularisation d’apprentissage simple mais efficace, consistant à perturber les échantillons réels afin de simuler les erreurs de prédiction observées lors de l’inférence. Nous montrons empiriquement que cette perturbation d’entrée améliore significativement la qualité des échantillons générés, sans nuire au rappel ni à la précision, tout en réduisant à la fois le temps d’apprentissage et celui d’inférence. Par exemple, sur CelebA 64×64, nous atteignons un nouveau meilleur score FID de 1,27, tout en économisant 37,5 % du temps d’apprentissage. Le code est disponible publiquement à l’adresse suivante : https://github.com/forever208/DDPM-IP