HyperAIHyperAI
il y a 2 mois

Apprendre quoi et où dessiner

Scott Reed; Zeynep Akata; Santosh Mohan; Samuel Tenka; Bernt Schiele; Honglak Lee
Apprendre quoi et où dessiner
Résumé

Les Réseaux Antagonistes Génératifs (GANs) ont récemment démontré leur capacité à synthétiser des images réalistes convaincantes, telles que des intérieurs de pièces, des pochettes d'albums, des mangas, des visages, des oiseaux et des fleurs. Bien que les modèles existants puissent synthétiser des images en fonction de contraintes globales comme une étiquette de classe ou une légende, ils ne fournissent pas de contrôle sur la pose ou l'emplacement des objets. Nous proposons un nouveau modèle, le Réseau Antagoniste Génératif Quoi-Où (GAWWN), qui synthétise des images à partir d'instructions décrivant quel contenu dessiner à quel emplacement. Nous montrons une synthèse d'images de haute qualité de taille 128 x 128 sur le jeu de données Caltech-UCSD Birds, conditionnée à la fois par des descriptions textuelles informelles et par l'emplacement des objets. Notre système offre un contrôle sur la boîte englobante autour de l'oiseau ainsi que sur ses parties constitutives. En modélisant les distributions conditionnelles sur les emplacements des parties, notre système permet également de conditionner sur des sous-ensembles arbitraires de parties (par exemple, seulement le bec et la queue), offrant ainsi une interface efficace pour sélectionner les emplacements des parties. Nous présentons également des résultats préliminaires dans le domaine plus complexe de la synthèse d'images contrôlées par du texte et l'emplacement, représentant des actions humaines sur le jeu de données MPII Human Pose.