HyperAIHyperAI
il y a 2 mois

Réseaux de Génération Adversariaux Unifiés pour la Traduction d'Image à Image Contrôlable

Tang, Hao ; Liu, Hong ; Sebe, Nicu
Réseaux de Génération Adversariaux Unifiés pour la Traduction d'Image à Image Contrôlable
Résumé

Nous proposons un réseau de neurones génératif adversarial unifié (Generative Adversarial Network, GAN) pour la traduction d'images contrôlée, c'est-à-dire le transfert d'une image d'un domaine source à un domaine cible guidé par des structures contrôlables. Outre la conditionnalité sur une image de référence, nous montrons comment le modèle peut générer des images conditionnées par des structures contrôlables, par exemple des étiquettes de classe, des points clés d'objets, des squelettes humains et des cartes sémantiques de scènes. Le modèle proposé se compose d'un générateur unique et d'un discriminateur prenant en entrée une image conditionnelle et la structure contrôlable cible. De cette manière, l'image conditionnelle peut fournir des informations sur l'apparence et la structure contrôlable peut fournir les informations structurales nécessaires pour générer le résultat cible. De plus, notre modèle apprend la correspondance entre les images grâce à trois pertes novatrices : perte de couleur, perte de cycle cohérente guidée par la structure contrôlable et perte de préservation du contenu propre guidée par la structure contrôlable. Nous présentons également la distance de Fréchet basée sur ResNet (Fréchet ResNet Distance, FRD) pour évaluer la qualité des images générées. Les expériences menées sur deux tâches complexes de traduction d'images, à savoir la traduction de gestes manuels en gestes manuels et la traduction d'images inter-vues, montrent que notre modèle produit des résultats convaincants et surpass significativement les autres méthodes de pointe dans les deux tâches. Par ailleurs, le cadre proposé est une solution unifiée qui peut être appliquée à d'autres tâches de traduction d'images guidées par des structures contrôlables telles que la traduction d'expressions faciales guidée par des repères et la génération d'images de personnes guidée par des points clés. À notre connaissance, nous sommes les premiers à faire fonctionner un cadre GAN sur toutes ces tâches de traduction d'images guidées par des structures contrôlables. Le code est disponible à l'adresse suivante : https://github.com/Ha0Tang/GestureGAN.

Réseaux de Génération Adversariaux Unifiés pour la Traduction d'Image à Image Contrôlable | Articles de recherche récents | HyperAI