HyperAIHyperAI
il y a 2 mois

Image Transformer

Niki Parmar; Ashish Vaswani; Jakob Uszkoreit; Łukasz Kaiser; Noam Shazeer; Alexander Ku; Dustin Tran
Image Transformer
Résumé

La génération d'images a été avec succès formulée comme un problème de génération ou de transformation de séquences autoregressives. Des travaux récents ont montré que l'auto-attention est une méthode efficace pour modéliser des séquences textuelles. Dans ce travail, nous généralisons une architecture de modèle récemment proposée basée sur l'auto-attention, le Transformer, à une formulation de modélisation de séquences pour la génération d'images avec une vraisemblance calculable. En restreignant le mécanisme d'auto-attention à des voisinages locaux, nous augmentons considérablement la taille des images que le modèle peut traiter en pratique, tout en maintenant des champs récepteurs significativement plus larges par couche que les réseaux neuronaux convolutifs typiques. Bien que conceptuellement simple, nos modèles génératifs surpassent considérablement l'état actuel de l'art en génération d'images sur ImageNet, améliorant le meilleur logarithme négatif de la vraisemblance publié sur ImageNet de 3,83 à 3,77. Nous présentons également des résultats sur la super-résolution d'images avec un grand facteur d'amplification, en appliquant une configuration encodeur-décodeur de notre architecture. Dans une étude d'évaluation humaine, nous constatons que les images générées par notre modèle de super-résolution trompent trois fois plus souvent les observateurs humains que l'état antérieur de l'art.Note: - "autoregressive" is translated as "autoregressif" which is the standard term used in French for this concept.- "tractable likelihood" is translated as "vraisemblance calculable," which conveys the idea that the likelihood can be computed efficiently.- "negative log-likelihood" is translated as "logarithme négatif de la vraisemblance," which is the common expression in French for this statistical measure.- The term "super-resolution" is kept in its original form as it is widely recognized and used in French scientific literature.