HyperAIHyperAI
il y a 7 jours

Transformers améliorés pour les GAN à haute résolution

Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang
Transformers améliorés pour les GAN à haute résolution
Résumé

Les modèles basés sur l’attention, exemplifiés par le Transformer, sont capables de modéliser efficacement les dépendances à longue portée, mais ils souffrent d’une complexité quadratique liée à l’opération d’attention auto-attentionnelle, ce qui les rend difficiles à appliquer à la génération d’images haute résolution dans le cadre des réseaux antagonistes génératifs (GANs). Dans cet article, nous introduisons deux éléments clés au sein du Transformer afin de relever ce défi. Premièrement, dans les étapes à faible résolution du processus de génération, l’attention auto-attentionnelle globale standard est remplacée par une nouvelle attention auto-attentionnelle par blocs multi-axes, permettant un mélange efficace entre l’attention locale et l’attention globale. Deuxièmement, dans les étapes à haute résolution, nous supprimons l’attention auto-attentionnelle tout en conservant uniquement des perceptrons multicouches, rappelant ainsi une fonction neuronale implicite. Pour améliorer davantage les performances, nous introduisons un composant supplémentaire de self-modulation basé sur l’attention croisée. Le modèle résultant, désigné HiT, présente une complexité computationnelle quasi linéaire par rapport à la taille de l’image, ce qui lui permet de s’échelonner directement à la synthèse d’images en haute définition. Nos expériences montrent que le HiT proposé atteint des scores FID de pointe du domaine, respectivement 30,83 et 2,95 sur ImageNet inconditionnel $128 \times 128$ et FFHQ $256 \times 256$, avec un débit raisonnable. Nous pensons que le HiT proposé représente une étape importante dans le développement des générateurs dans les GANs, entièrement libérés des convolutions. Le code source est mis à disposition publiquement à l’adresse suivante : https://github.com/google-research/hit-gan

Transformers améliorés pour les GAN à haute résolution | Articles de recherche récents | HyperAI