Modèle de diffusion binaire probabiliste

Nous présentons le modèle de diffusion probabiliste binaire (Binary Diffusion Probabilistic Model, BDPM), une nouvelle approche générative optimisée pour les représentations de données binaires. Bien que les modèles de diffusion probabiliste débruitants (Denoising Diffusion Probabilistic Models, DDPMs) aient montré des succès notables dans des tâches telles que la synthèse et la restauration d'images, les DDPMs traditionnels s'appuient sur des représentations de données continues et utilisent une perte quadratique moyenne (Mean Squared Error, MSE) pour l'entraînement, en appliquant des modèles de bruit gaussiens qui peuvent ne pas être optimaux pour les structures de données discrètes ou binaires. Le BDPM remédie à cela en décomposant les images en plans de bits et en utilisant des transformations de bruit basées sur XOR, avec un modèle débruiteur entraîné à l'aide d'une perte de divergence croisée binaire (binary cross-entropy). Cette méthode permet un contrôle précis du bruit et une inférence computationnellement efficace, réduisant considérablement les coûts informatiques et améliorant la convergence du modèle. Lorsqu'il est évalué sur des tâches de restauration d'images telles que la super-résolution, l'inpainting et la restauration aveugle d'images, le BDPM surpasses les méthodes de pointe sur les jeux de données FFHQ, CelebA et CelebA-HQ. Il convient de souligner que le BDPM nécessite moins d'étapes d'inférence que les modèles DDPM traditionnels pour atteindre des résultats optimaux, mettant ainsi en évidence son efficacité accrue en matière d'inférence.