Entraînement par maximum de vraisemblance des modèles de diffusion basés sur les scores

Les modèles de diffusion fondés sur les scores génèrent des échantillons en inversant un processus stochastique qui transforme les données en bruit, et sont entraînés en minimisant une combinaison pondérée de pertes d’ajustement de score. La log-vraisemblance de ces modèles peut être calculée de manière efficace grâce à une connexion avec les flux normalisants continus, mais elle n’est pas directement optimisée par la combinaison pondérée des pertes d’ajustement de score. Nous montrons qu’avec un schéma de pondération spécifique, l’objectif constitue une borne supérieure de la log-vraisemblance négative, permettant ainsi un entraînement approché par maximum de vraisemblance pour les modèles de diffusion fondés sur les scores. Nous observons empiriquement que cet entraînement par maximum de vraisemblance améliore de manière cohérente la log-vraisemblance des modèles de diffusion fondés sur les scores sur plusieurs jeux de données, processus stochastiques et architectures de modèles. Nos meilleurs modèles atteignent des valeurs de log-vraisemblance négative de 2,83 et 3,76 bits/dim sur CIFAR-10 et ImageNet 32x32, sans aucune augmentation de données, ce qui les place au niveau des meilleurs modèles autoregressifs actuels sur ces tâches.