Command Palette
Search for a command to run...
Synthèse d'images à vue croisée utilisant des GAN conditionnels
Synthèse d'images à vue croisée utilisant des GAN conditionnels
Regmi Krishna Borji Ali
Résumé
La génération de scènes naturelles constitue depuis toujours un défi majeur en vision par ordinateur. Ce défi devient encore plus ardu lorsque la génération est conditionnée par des images présentant des points de vue radicalement différents. Cela tient principalement au fait qu’il n’est pas trivial de comprendre, de corrélater et de transformer l’information visuelle et sémantique entre ces différents points de vue. Dans cet article, nous abordons le problème nouveau de la synthèse d’images à travers des points de vue différents — de vue aérien vers vue au sol, et inversement — en utilisant des réseaux génératifs antagonistes conditionnels (cGAN). Nous proposons deux nouvelles architectures, nommées Crossview Fork (X-Fork) et Crossview Sequential (X-Seq), capables de générer des scènes aux résolutions de 64×64 et 256×256 pixels. L’architecture X-Fork repose sur un seul discriminateur et un seul générateur. Ce dernier génère à la fois l’image cible et sa carte de segmentation sémantique correspondante. L’architecture X-Seq, quant à elle, utilise deux cGAN. Le premier génère l’image cible, qui est ensuite transmise au second cGAN chargé de produire la carte de segmentation sémantique associée. Le feedback fourni par le second cGAN permet au premier de générer des images plus nettes. Les deux architectures proposées apprennent à générer à la fois des images naturelles et leurs cartes de segmentation sémantique. Les méthodes proposées démontrent une meilleure capacité à capturer et à conserver les véritables significations sémantiques des objets dans les vues source et cible, par rapport à la méthode classique de traduction image à image, qui ne prend en compte que l’apparence visuelle de la scène. Des évaluations qualitatives et quantitatives étendues confirment l’efficacité de nos cadres par rapport à deux méthodes de pointe, pour la génération de scènes naturelles entre des points de vue radicalement différents.