HyperAIHyperAI
il y a 2 mois

Apprentissage de GANs réconfigurables en termes de disposition et de style pour la synthèse d'images contrôlable

Sun, Wei ; Wu, Tianfu
Apprentissage de GANs réconfigurables en termes de disposition et de style pour la synthèse d'images contrôlable
Résumé

Avec les remarquables progrès récents dans l'apprentissage des modèles génératifs profonds, il devient de plus en plus intéressant de développer des modèles pour la synthèse d'images contrôlable à partir d'entrées reconfigurables. Cet article se concentre sur une tâche récemment émergente, la transformation de mise en page en image (layout-to-image), visant à apprendre des modèles génératifs capables de synthétiser des images photoréalistes à partir d'une mise en page spatiale (c'est-à-dire des boîtes englobantes d'objets configurées dans une grille d'image) et d'un style (c'est-à-dire des variations structurelles et d'apparence encodées par des vecteurs latents).Cet article propose tout d'abord un paradigme intuitif pour cette tâche, la transformation de mise en page en masque en image (layout-to-mask-to-image), afin d'apprendre à déployer les masques d'objets des boîtes englobantes données dans une mise en page, ce qui permet de combler le fossé entre la mise en page d'entrée et les images synthétisées. Ensuite, cet article présente une méthode basée sur les Réseaux Antagonistes Génératifs (GANs) pour la transformation proposée de mise en page en masque en image avec un contrôle du style aux niveaux de l'image et du masque.Les masques d'objets sont appris à partir de la mise en page d'entrée et raffinés itérativement au fil des étapes dans le réseau générateur. Le contrôle du style au niveau de l'image est identique à celui des GANs classiques, tandis que le contrôle du style au niveau du masque d'objet est réalisé grâce à un nouveau schéma de normalisation des caractéristiques proposé, appelé Normalisation Sensible aux Instances et Consciente de la Mise en Page (Instance-Sensitive and Layout-Aware Normalization).Dans les expériences, la méthode proposée a été testée sur les jeux de données COCO-Stuff et Visual Genome, obtenant des performances parmi les meilleures actuellement disponibles.

Apprentissage de GANs réconfigurables en termes de disposition et de style pour la synthèse d'images contrôlable | Articles de recherche récents | HyperAI