HyperAIHyperAI
il y a 4 mois

CogView : Maîtrise de la Génération d'Images à partir du Texte via les Transformers

Ming Ding; Zhuoyi Yang; Wenyi Hong; Wendi Zheng; Chang Zhou; Da Yin; Junyang Lin; Xu Zou; Zhou Shao; Hongxia Yang; Jie Tang
CogView : Maîtrise de la Génération d'Images à partir du Texte via les Transformers
Résumé

La génération d'images à partir de texte dans le domaine général a longtemps été un problème ouvert, nécessitant à la fois un modèle génératif puissant et une compréhension intermodale. Nous proposons CogView, un Transformers doté de 4 milliards de paramètres et utilisant un tokeniseur VQ-VAE pour faire progresser cette problématique. Nous démontrons également les stratégies d'ajustement fin (fine-tuning) pour diverses tâches en aval, telles que l'apprentissage de style, la sur-résolution, le classement texte-image et la conception de mode, ainsi que des méthodes pour stabiliser l'entraînement préalable, par exemple l'élimination des pertes NaN. CogView atteint l'état de l'art en termes de FID sur le jeu de données MS COCO flouté, surpassant les modèles précédents basés sur GAN et un travail récent similaire nommé DALL-E.