Troncature Douce : Une Technique Universelle d'Entraînement des Modèles de Diffusion Basés sur les Scores pour une Estimation Précise des Scores

Les avancées récentes des modèles de diffusion permettent d’atteindre des performances de pointe dans les tâches de génération d’images. Toutefois, les résultats empiriques obtenus dans des travaux antérieurs sur les modèles de diffusion suggèrent une corrélation inverse entre la performance en estimation de densité et celle en génération d’échantillons. Ce papier présente des preuves empiriques solides montrant que cette corrélation inverse s’explique par le fait que l’estimation de densité est principalement influencée par de courtes durées de diffusion, tandis que la génération d’échantillons dépend davantage de longues durées de diffusion. En revanche, former efficacement un réseau de score sur l’ensemble de la durée de diffusion s’avère difficile, car l’échelle de la fonction de perte présente un déséquilibre important à chaque instant de diffusion. Afin de garantir une formation réussie, nous introduisons une technique universellement applicable pour les modèles de diffusion, appelée Soft Truncation, qui transforme le paramètre hyperfixe et statique de troncature en une variable aléatoire. Nos expériences montrent que Soft Truncation atteint des performances de pointe sur les jeux de données CIFAR-10, CelebA, CelebA-HQ 256x256 et STL-10.