HyperAIHyperAI
il y a 3 mois

CogView2 : Génération d'images à partir de texte plus rapide et plus performante grâce aux Transformers hiérarchiques

Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang
CogView2 : Génération d'images à partir de texte plus rapide et plus performante grâce aux Transformers hiérarchiques
Résumé

Le développement des modèles text-to-image basés sur les transformateurs est freiné par une génération lente et une complexité accrue pour les images haute résolution. Dans ce travail, nous proposons une solution fondée sur des transformateurs hiérarchiques et une génération auto-régressive parallèle locale. Nous préentraînons un transformateur de 6 milliards de paramètres via une tâche auto-supervisée simple et flexible, le modèle linguistique généraliste multimodal (CogLM), puis le fine-tunons pour une super-résolution rapide. Le nouveau système text-to-image, CogView2, démontre une génération très compétitive par rapport à l’état de l’art concurrent DALL-E-2, tout en supportant naturellement l’édition interactive guidée par le texte sur les images.