HyperAIHyperAI

Command Palette

Search for a command to run...

CogView : Maîtrise de la Génération d'Images à partir du Texte via les Transformers

Ming Ding†, Zhuoyi Yang†, Wenyi Hong‡, Wendi Zheng†, Chang Zhou†, Da Yin†, Junyang Lin‡, Xu Zou†, Zhou Shao♠, Hongxia Yang‡, Jie Tang†♠

Résumé

La génération d'images à partir de texte dans le domaine général a longtemps été un problème ouvert, nécessitant à la fois un modèle génératif puissant et une compréhension intermodale. Nous proposons CogView, un Transformers doté de 4 milliards de paramètres et utilisant un tokeniseur VQ-VAE pour faire progresser cette problématique. Nous démontrons également les stratégies d'ajustement fin (fine-tuning) pour diverses tâches en aval, telles que l'apprentissage de style, la sur-résolution, le classement texte-image et la conception de mode, ainsi que des méthodes pour stabiliser l'entraînement préalable, par exemple l'élimination des pertes NaN. CogView atteint l'état de l'art en termes de FID sur le jeu de données MS COCO flouté, surpassant les modèles précédents basés sur GAN et un travail récent similaire nommé DALL-E.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp