HyperAIHyperAI
il y a 2 mois

Diffusion Décalée pour la Génération d'Images à Partir de Texte

Yufan Zhou; Bingchen Liu; Yizhe Zhu; Xiao Yang; Changyou Chen; Jinhui Xu
Diffusion Décalée pour la Génération d'Images à Partir de Texte
Résumé

Nous présentons Corgi, une nouvelle méthode de génération d'images à partir de texte. Corgi est basée sur notre modèle de diffusion décalé proposé, qui permet une meilleure génération d'embeddings d'images à partir du texte d'entrée. Contrairement au modèle de diffusion de base utilisé dans DALL-E 2, notre méthode intègre de manière fluide les connaissances préalables du modèle CLIP pré-entraîné dans son processus de diffusion en concevant une nouvelle distribution initiale et un nouveau pas de transition pour la diffusion. Par rapport au puissant modèle de référence DALL-E 2, notre méthode se distingue par une meilleure performance dans la génération d'embeddings d'images à partir du texte, tant en termes d'efficacité que d'efficience, ce qui se traduit par une meilleure génération d'images à partir du texte. Des expériences à grande échelle ont été menées et évaluées selon des mesures quantitatives et des évaluations humaines, indiquant une capacité générative supérieure de notre méthode par rapport aux méthodes existantes. De plus, notre modèle permet un entraînement semi-supervisé et sans langage pour la génération d'images à partir du texte, où seule une partie ou aucune des images du jeu de données d'entraînement ne sont associées à une légende. Entraîné avec seulement 1,7 % des images légendées, notre modèle semi-supervisé obtient des résultats FID comparables à ceux de DALL-E 2 lors de l'évaluation sur la génération d'images à partir du texte en zero-shot sur MS-COCO. Corgi atteint également de nouveaux résultats state-of-the-art sur divers jeux de données pour les tâches downstream de génération d'images à partir du texte sans langage, surpassant largement la méthode précédente Lafite.Note : - "zero-shot" est conservé tel quel car c'est un terme couramment utilisé en français dans le domaine des technologies.- "state-of-the-art" est également conservé tel quel car c'est un terme standard en français pour désigner les meilleures performances actuelles.- "downstream" est traduit par "downstream" (en italique) car il s’agit d’un terme technique spécifique au domaine.