Command Palette
Search for a command to run...
Transformateurs compositionnels pour la génération de scènes
Transformateurs compositionnels pour la génération de scènes
Larry Zitnick Dor Arad Hudson
Résumé
Nous introduisons le modèle GANformer2, un transformateur itératif orienté objet, exploré pour la tâche de modélisation générative. Le réseau intègre des prioris structurels forts et explicites, reflétant la nature compositionnelle des scènes visuelles, et synthétise des images selon un processus séquentiel. Il opère en deux phases : une phase de planification rapide et légère, durant laquelle nous établissons un schéma global de scène, suivie d'une phase d'exécution basée sur l'attention, où ce schéma est affiné progressivement, évoluant vers une image riche et détaillée. Contrairement aux architectures GAN classiques à boîte noire, caractérisées par un espace latent plat et monolithique, notre modèle adopte une conception transparente, favorisant l'efficacité, la maîtrisabilité et l'interprétabilité. Nous démontrons les forces et les qualités de GANformer2 à travers une évaluation rigoureuse sur divers jeux de données, allant des scènes multi-objets CLEVR aux images complexes du dataset COCO, montrant qu’il atteint avec succès des performances de pointe en termes de qualité visuelle, de diversité et de cohérence. Des expériences supplémentaires mettent en évidence la désenchevêtrement du modèle et offrent une compréhension plus profonde de son processus génératif, qui progresse étape par étape, depuis un croquis initial grossier, jusqu’à un schéma détaillé tenant compte des profondeurs et des dépendances entre objets, jusqu’à la représentation finale en haute résolution de scènes réalistes vibrantes et complexes. Voir https://github.com/dorarad/gansformer pour l’implémentation du modèle.