Palette : Modèles de diffusion image à image

Ce document développe un cadre unifié pour la traduction d'images en images basé sur des modèles de diffusion conditionnelle et évalue ce cadre sur quatre tâches de traduction d'images en images particulièrement difficiles, à savoir la colorisation, le remplissage (inpainting), l'élargissement (uncropping) et la restauration JPEG. Notre implémentation simple des modèles de diffusion d'images en images surpasse les puissantes bases de comparaison GAN et de régression sur toutes les tâches, sans nécessiter d'ajustement spécifique des hyperparamètres, de personnalisation de l'architecture ou toute autre perte auxiliaire ou technique avancée. Nous mettons en lumière l'impact d'une perte L2 par rapport à une perte L1 dans l'objectif de diffusion débruitante sur la diversité des échantillons, et démontrons par des études empiriques l'importance de l'auto-attention dans l'architecture neuronale. De manière importante, nous prônons un protocole d'évaluation unifié basé sur ImageNet, incluant une évaluation humaine et des scores de qualité d'échantillon (FID, score Inception, précision de classification d'un ResNet-50 pré-entraîné et distance perceptuelle par rapport aux images originales). Nous nous attendons à ce que ce protocole d'évaluation standardisé joue un rôle dans l'avancement de la recherche en traduction d'images en images. Enfin, nous montrons qu'un modèle de diffusion généraliste et multitâche performe aussi bien voire mieux que ses homologues spécialisés par tâche. Pour un aperçu des résultats, consultez https://diffusion-palette.github.io.