Domestiquer les Transformers pour la synthèse d'images à haute résolution

Conçus pour apprendre les interactions à longue portée sur des données séquentielles, les transformateurs continuent d'obtenir des résultats de pointe sur une grande variété de tâches. Contrairement aux CNNs (Convolutional Neural Networks), ils ne contiennent aucun biais inductif qui privilégie les interactions locales. Cela les rend expressifs, mais également computationnellement irréalistes pour des séquences longues, telles que des images à haute résolution. Nous démontrons comment la combinaison de l'efficacité du biais inductif des CNNs avec l'expressivité des transformateurs permet de modéliser et, par conséquent, de synthétiser des images à haute résolution. Nous montrons comment (i) utiliser les CNNs pour apprendre un vocabulaire riche en contexte d'éléments constitutifs d'images, et ensuite (ii) exploiter les transformateurs pour modéliser efficacement leur composition au sein d'images à haute résolution. Notre approche s'applique facilement aux tâches de synthèse conditionnelle, où tant les informations non spatiales, comme les classes d'objets, que les informations spatiales, comme les segmentations, peuvent contrôler l'image générée. En particulier, nous présentons les premiers résultats sur la synthèse guidée sémantiquement d'images mégapixels avec des transformateurs et obtenons l'état de l'art parmi les modèles auto-régressifs sur ImageNet conditionné aux classes. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/CompVis/taming-transformers .