GAN à Sélection d'Attention Multi-Canal avec Guidance Sémantique en Cascade pour la Traduction d'Images Transversales

La traduction d'images entre différentes vues est un défi en raison des différences de vue importantes et des déformations sévères qu'elle implique. Dans cet article, nous proposons une nouvelle approche nommée Multi-Channel Attention SelectionGAN (SelectionGAN), qui permet de générer des images de scènes naturelles sous des points de vue arbitraires, à partir d'une image de la scène et d'une nouvelle carte sémantique. Le SelectionGAN utilise explicitement les informations sémantiques et se compose de deux étapes. Dans la première étape, l'image conditionnelle et la carte sémantique cible sont introduites dans un réseau de génération guidé par la sémantique cyclique pour produire des résultats initiaux grossiers. Dans la deuxième étape, nous affinons ces résultats initiaux en utilisant un mécanisme de sélection d'attention multi-canal. De plus, les cartes d'incertitude apprises automatiquement à partir des attentions sont utilisées pour guider la perte pixel pour une meilleure optimisation du réseau. Des expériences étendues sur les jeux de données Dayton, CVUSA et Ego2Top montrent que notre modèle est capable de générer des résultats nettement meilleurs que les méthodes les plus avancées actuellement disponibles. Le code source, les données et les modèles entraînés sont disponibles à l'adresse suivante : https://github.com/Ha0Tang/SelectionGAN.