HyperAIHyperAI
il y a 17 jours

TransGAN : Deux Transformers purs peuvent former un GAN puissant, et cela peut être mis à l’échelle

Yifan Jiang, Shiyu Chang, Zhangyang Wang
TransGAN : Deux Transformers purs peuvent former un GAN puissant, et cela peut être mis à l’échelle
Résumé

L’intérêt croissant suscité récemment par les modèles de type « transformer » suggère leur potentiel à devenir des modèles universels puissants pour les tâches de vision par ordinateur, telles que la classification, la détection et la segmentation. Alors que ces travaux se concentrent principalement sur des modèles discriminatifs, nous explorons l’application des transformers à des tâches de vision particulièrement difficiles, comme les réseaux antagonistes génératifs (GAN). Notre objectif est de mener la première étude pilote visant à concevoir un GAN entièrement dépourvu de couches de convolution, reposant exclusivement sur des architectures fondées sur les transformers. Notre architecture de base, baptisée TransGAN, repose sur un générateur basé sur les transformers, conçu pour être efficace en mémoire et capable d’augmenter progressivement la résolution des caractéristiques, ainsi qu’un discriminateur multi-échelle permettant de capturer simultanément les contextes sémantiques et les textures de bas niveau. Pour surmonter davantage la contrainte mémoire et permettre une mise à l’échelle vers des générations à haute résolution, nous introduisons un nouveau module, l’attention en grille (grid self-attention). Nous avons également développé une recette d’entraînement originale, comprenant une série de techniques visant à atténuer les instabilités d’entraînement de TransGAN, telles que l’augmentation de données, une normalisation modifiée et une encodage de position relative. Notre meilleure architecture atteint des performances hautement compétitives par rapport aux GAN d’état de l’art utilisant des architectures convolutionnelles comme base. Plus précisément, TransGAN établit de nouveaux records mondiaux sur STL-10 avec un score inception de 10,43 et un FID de 18,28, surpassant ainsi StyleGAN-V2. Pour des tâches de génération à résolution plus élevée (par exemple, 256×256), comme sur CelebA-HQ et LSUN-Church, TransGAN continue de produire des exemples visuels diversifiés, fidèles et dotés de détails texturaux impressionnants. En outre, nous menons une analyse approfondie des modèles de génération basés sur les transformers afin de comprendre comment leurs comportements diffèrent de ceux des modèles convolutionnels, en visualisant les dynamiques d’entraînement. Le code source est disponible à l’adresse suivante : https://github.com/VITA-Group/TransGAN.

TransGAN : Deux Transformers purs peuvent former un GAN puissant, et cela peut être mis à l’échelle | Articles de recherche récents | HyperAI