HyperAIHyperAI
il y a 7 jours

StyleSwin : GAN basé sur Transformer pour la génération d’images haute résolution

Bowen Zhang, Shuyang Gu, Bo Zhang, Jianmin Bao, Dong Chen, Fang Wen, Yong Wang, Baining Guo
StyleSwin : GAN basé sur Transformer pour la génération d’images haute résolution
Résumé

Malgré les succès prometteurs obtenus dans un large éventail de tâches de vision par ordinateur, les modèles basés sur les Transformers n’ont pas encore atteint une performance équivalente aux réseaux de convolution (ConvNets) dans le domaine de la génération d’images à haute résolution. Dans ce travail, nous explorons l’utilisation de Transformers purs pour concevoir un réseau adversaire génératif (GAN) destiné à la synthèse d’images haute résolution. À cet effet, nous considérons que l’attention locale est cruciale pour atteindre un bon compromis entre efficacité computationnelle et capacité de modélisation. Par conséquent, le générateur proposé adopte l’architecture Swin Transformer dans un cadre basé sur le style. Pour étendre le champ réceptif, nous proposons une nouvelle mécanique d’attention double, qui exploite simultanément le contexte des fenêtres locales et des fenêtres décalées, conduisant à une amélioration significative de la qualité de génération. En outre, nous démontrons qu’ajouter des informations sur la position absolue — perdues dans les Transformers basés sur les fenêtres — améliore notablement la qualité de génération. Le modèle proposé, StyleSwin, est évolutif vers des résolutions élevées, permettant à la fois une bonne représentation de la géométrie grossière et des détails fins grâce à l’expressivité puissante des Transformers. Toutefois, des artefacts liés au blocage apparaissent lors de la synthèse à haute résolution, car l’attention locale appliquée de manière bloc par bloc peut altérer la cohérence spatiale. Pour résoudre ce problème, nous étudions empiriquement diverses solutions, parmi lesquelles nous identifions qu’un discriminateur basé sur la transformée en ondelettes, capable d’évaluer les écarts spectraux, est particulièrement efficace pour supprimer ces artefacts. Des expériences étendues montrent que StyleSwin surpasser largement les GANs précédents basés sur les Transformers, notamment à haute résolution, comme 1024×1024. Sans recourir à des stratégies d’entraînement complexes, StyleSwin excelle sur CelebA-HQ 1024 par rapport à StyleGAN, et atteint une performance équivalente sur FFHQ-1024, démontrant ainsi le réel potentiel des Transformers pour la génération d’images haute résolution. Le code et les modèles seront disponibles à l’adresse suivante : https://github.com/microsoft/StyleSwin.

StyleSwin : GAN basé sur Transformer pour la génération d’images haute résolution | Articles de recherche récents | HyperAI