HyperAIHyperAI
il y a 2 mois

Synthèse d'images inter-vues à l'aide de GANs conditionnels

Regmi, Krishna ; Borji, Ali
Synthèse d'images inter-vues à l'aide de GANs conditionnels
Résumé

L'apprentissage de la génération de scènes naturelles a toujours constitué un défi majeur en vision par ordinateur. Cette tâche devient encore plus ardue lorsque la génération est conditionnée par des images présentant des vues radicalement différentes. Cela s'explique principalement par le fait que la compréhension, la correspondance et la transformation des informations d'apparence et sémantiques entre les vues ne sont pas triviales. Dans cet article, nous tentons de résoudre le problème novateur de la synthèse d'images inter-vues, de vue aérienne à vue de rue et vice versa, en utilisant des réseaux adverses génératifs conditionnels (cGAN). Deux nouvelles architectures nommées Crossview Fork (X-Fork) et Crossview Sequential (X-Seq) sont proposées pour générer des scènes avec des résolutions de 64x64 et 256x256 pixels.L'architecture X-Fork dispose d'un seul discriminateur et d'un seul générateur. Le générateur imagine à la fois l'image et sa segmentation sémantique dans la vue cible. L'architecture X-Seq utilise deux cGANs. Le premier génère l'image cible qui est ensuite fournie au second cGAN pour produire sa carte de segmentation sémantique correspondante. Les retours du second cGAN aident le premier cGAN à générer des images plus nettes. Nos deux architectures proposées apprennent non seulement à générer des images naturelles mais aussi leurs cartes de segmentation sémantique.Les méthodes proposées montrent qu'elles sont capables de capturer et de maintenir les véritables sémantiques des objets dans les vues source et cible mieux que les méthodes traditionnelles de traduction d'image à image qui ne prennent en compte que l'apparence visuelle de la scène. Des évaluations qualitatives et quantitatives approfondies soutiennent l'efficacité de nos cadres, comparés à deux méthodes d'avant-garde, pour la génération de scènes naturelles entre des vues radicalement différentes.

Synthèse d'images inter-vues à l'aide de GANs conditionnels | Articles de recherche récents | HyperAI