il y a 17 jours

Modèles de cohérence

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever

Résumé

Les modèles de diffusion ont considérablement progressé dans les domaines de la génération d’images, d’audio et de vidéos, mais ils dépendent d’un processus d’échantillonnage itératif qui entraîne une génération lente. Pour surmonter cette limitation, nous proposons les modèles de cohérence, une nouvelle famille de modèles capables de générer des échantillons de haute qualité en cartographiant directement le bruit vers les données. Conçus pour permettre une génération rapide en une seule étape, ces modèles conservent toutefois la possibilité d’un échantillonnage multisteps afin de compromettre calcul et qualité des échantillons. Ils supportent également l’édition de données zéro-shot, telle que le remplissage d’images (inpainting), la colorisation ou la super-résolution, sans nécessiter d’entraînement explicite sur ces tâches. Les modèles de cohérence peuvent être entraînés soit par distillation à partir de modèles de diffusion pré-entraînés, soit comme modèles génératifs autonomes. À travers des expériences approfondies, nous démontrons qu’ils surpassent les techniques de distillation existantes pour les modèles de diffusion dans les échantillonnages à une ou quelques étapes, atteignant un nouvel état de l’art en FID de 3,55 sur CIFAR-10 et de 6,20 sur ImageNet 64x64 pour la génération en une seule étape. Lorsqu’entraînés de manière autonome, les modèles de cohérence constituent une nouvelle famille de modèles génératifs capables de surpasser les modèles génératifs existants à une étape et non adversariaux sur des benchmarks standards tels que CIFAR-10, ImageNet 64x64 et LSUN 256x256.