Réseaux antagonistes génératifs efficaces utilisant des Transformers à attention additive linéaire

Bien que la capacité des modèles génératifs profonds pour la génération d’images, tels que les modèles de diffusion (Diffusion Models, DMs) et les réseaux adversariaux génératifs (Generative Adversarial Networks, GANs), ait considérablement progressé ces dernières années, une grande partie de leur succès s’explique par des architectures à coût computationnel élevé. Cela a limité leur adoption et leur utilisation à des laboratoires de recherche et des entreprises disposant de ressources importantes, tout en augmentant significativement l’empreinte carbone liée à l’entraînement, au fine-tuning et à l’inférence. Dans ce travail, nous présentons une nouvelle architecture GAN, que nous appelons LadaGAN. Cette architecture repose sur un bloc Transformer à attention linéaire nommé Ladaformer. Le composant principal de ce bloc est un mécanisme d’attention additive linéaire qui calcule un seul vecteur d’attention par tête, contrairement à l’attention produit scalaire quadratique classique. Nous utilisons Ladaformer à la fois dans le générateur et dans le discriminateur, ce qui réduit la complexité computationnelle et surmonte les instabilités d’entraînement souvent associées aux GANs basés sur les Transformers. LadaGAN surpasse de manière cohérente les GANs convolutifs et Transformer existants sur des jeux de données standard à différentes résolutions, tout en étant nettement plus efficace. En outre, LadaGAN atteint des performances compétitives par rapport aux modèles génératifs d’état de l’art à plusieurs étapes (par exemple, les DMs), tout en nécessitant des ressources computationnelles de plusieurs ordres de grandeur inférieures.