Échantillonnage de Compensation pour une Convergence Améliorée dans les Modèles de Diffusion

Les modèles de diffusion atteignent une qualité remarquable dans la génération d'images, mais à un coût. Le débruitage itératif nécessite de nombreuses étapes temporelles pour produire des images de haute fidélité. Nous soutenons que le processus de débruitage est essentiellement limité par l'accumulation de l'erreur de reconstruction due à une reconstruction initiale inexacte des données cibles. Cela entraîne des sorties de moindre qualité et une convergence plus lente. Pour remédier à ce problème, nous proposons l'échantillonnage compensatoire afin de guider la génération vers le domaine cible. Nous introduisons un terme de compensation, mis en œuvre sous forme d'un U-Net, qui ajoute une surcharge de calcul négligeable pendant l'entraînement et, optionnellement, lors de l'inférence. Notre approche est flexible et nous démontrons son application dans la génération inconditionnelle, le remplissage facial (face inpainting) et la désocclusion faciale (face de-occlusion) en utilisant les jeux de données standards CIFAR-10, CelebA, CelebA-HQ, FFHQ-256 et FSG. Notre méthode produit systématiquement des résultats d'avant-garde en termes de qualité d'image tout en accélérant le processus de débruitage pour atteindre la convergence jusqu'à un ordre de grandeur plus rapidement pendant l'entraînement.