eDiff-I : Modèles de diffusion Texte-Vision avec un ensemble de dénoiseurs experts

Les modèles génératifs à diffusion à grande échelle ont permis des avancées majeures dans la synthèse d’images haute résolution conditionnées par du texte. À partir d’un bruit aléatoire, ces modèles de diffusion texte-à-image synthétisent progressivement des images de manière itérative, tout en s’appuyant sur des promps textuels. Nous observons que leur comportement de génération évolue qualitativement tout au long de ce processus : au début de l’échantillonnage, la génération dépend fortement du prompt texte pour produire des contenus alignés avec le texte, tandis qu’à un stade ultérieur, la conditionnalité textuelle est presque entièrement ignorée. Cela suggère que partager les paramètres du modèle tout au long de l’ensemble du processus de génération peut ne pas être optimal. Par conséquent, contrairement aux travaux existants, nous proposons d’entraîner un ensemble de modèles de diffusion texte-à-image spécialisés pour différentes étapes de la synthèse. Pour préserver l’efficacité d’entraînement, nous commençons par entraîner un seul modèle, qui est ensuite divisé en plusieurs modèles spécialisés, chacun entraîné pour une étape spécifique du processus itératif de génération. Notre ensemble de modèles de diffusion, nommé eDiff-I, améliore significativement l’alignement avec le texte tout en conservant le même coût de calcul à l’inference et en préservant une qualité visuelle élevée, surpassant ainsi les modèles antérieurs de diffusion texte-à-image à grande échelle sur les benchmarks standards. En outre, nous entraînons notre modèle à exploiter divers types d’embeddings pour la conditionnalité, notamment les embeddings T5, CLIP texte et CLIP image. Nous montrons que ces différents embeddings entraînent des comportements distincts. Notamment, l’embedding image de CLIP permet une méthode intuitive pour transférer le style d’une image de référence vers la sortie texte-à-image cible. Enfin, nous présentons une technique qui permet à eDiff-I de réaliser une fonctionnalité de « peinture avec des mots ». L’utilisateur peut sélectionner un mot dans le texte d’entrée et le « peindre » sur une toile afin de contrôler la sortie, ce qui constitue un outil très pratique pour concevoir l’image souhaitée. La page du projet est disponible à l’adresse suivante : https://deepimagination.cc/eDiff-I/