il y a 17 jours

Transformers génératifs adversariaux

Drew A. Hudson, C. Lawrence Zitnick

Résumé

Nous introduisons le GANformer, un nouveau type de transformer novateur et efficace, que nous explorons pour la modélisation générative visuelle. Le réseau repose sur une structure bipartite permettant des interactions à longue portée à travers l'image, tout en maintenant une complexité computationnelle linéaire, ce qui lui confère une capacité d'évolutivité directe vers la synthèse à haute résolution. Il propage itérativement l'information entre un ensemble de variables latentes et les caractéristiques visuelles évoluant au fil du temps, dans les deux sens, afin de raffiner mutuellement chacun d'eux et de favoriser l'émergence de représentations compositionnelles d'objets et de scènes. Contrairement à l'architecture classique des transformeurs, il utilise une intégration multiplicative qui permet une modulation flexible basée sur des régions, et peut donc être vu comme une généralisation du réseau réussi StyleGAN. Nous démontrons la puissance et la robustesse du modèle grâce à une évaluation rigoureuse sur une variété de jeux de données, allant d'environnements simulés à plusieurs objets à des scènes réelles riches, intérieures et extérieures, montrant qu'il atteint des résultats de pointe en termes de qualité et de diversité des images, tout en bénéficiant d'une apprentissage rapide et d'une meilleure efficacité en données. Des expériences qualitatives et quantitatives complémentaires nous offrent une compréhension approfondie du fonctionnement interne du modèle, révélant une meilleure interprétabilité et une désenchevêtrement plus fort, illustrant ainsi les avantages et l'efficacité de notre approche. Une implémentation du modèle est disponible à l'adresse suivante : https://github.com/dorarad/gansformer.