Génération de plusieurs objets en des lieux spatialement distincts

Les récentes améliorations apportées aux Réseaux de Génération Adversariaux (GANs) ont rendu possible la génération d'images réalistes en haute résolution à partir de descriptions en langage naturel, telles que des légendes d'images. De plus, les GANs conditionnels nous permettent de contrôler le processus de génération d'images par le biais d'étiquettes ou même de descriptions en langage naturel. Cependant, un contrôle précis du découpage des images, c'est-à-dire l'emplacement exact où doivent se situer des objets spécifiques dans l'image, reste encore difficile à réaliser. Cela est particulièrement vrai pour les images qui doivent contenir plusieurs objets distincts à différents emplacements spatiaux. Nous présentons une nouvelle approche qui nous permet de contrôler l'emplacement d'un nombre arbitraire d'objets au sein d'une image en ajoutant une voie objet (object pathway) tant au générateur qu'au discriminateur. Notre approche n'a pas besoin d'un découpage sémantique détaillé mais seulement de boîtes englobantes et des étiquettes respectives des objets souhaités. La voie objet se concentre uniquement sur les objets individuels et est appliquée itérativement aux emplacements spécifiés par les boîtes englobantes. La voie globale se concentre sur le fond de l'image et sur le découpage général de l'image. Nous menons des expériences sur les jeux de données Multi-MNIST, CLEVR et MS-COCO plus complexes. Nos expériences montrent que grâce à l'utilisation de la voie objet, nous pouvons contrôler les emplacements des objets au sein des images et modéliser des scènes complexes avec plusieurs objets à divers emplacements. Nous montrons également que la voie objet se concentre sur les objets individuels et apprend des caractéristiques pertinentes pour ceux-ci, tandis que la voie globale se concentre sur les caractéristiques globales de l'image et sur le fond de l'image.