LatentKeypointGAN : Contrôle d'images via des points clés latents

Les réseaux de neurones génératifs adverses (GANs) ont atteint une qualité photographique dans la génération d'images. Cependant, le contrôle optimal du contenu des images reste un défi ouvert. Nous présentons LatentKeypointGAN, un GAN à deux étapes formé de manière end-to-end sur l'objectif classique des GANs, avec une conditionnement interne sur un ensemble de points clés spatiaux. Ces points clés sont associés à des plongements d'apparence qui contrôlent respectivement la position et le style des objets générés et de leurs parties. Une difficulté majeure que nous abordons grâce à des architectures de réseau appropriées et des schémas d'entraînement est la dissociation de l'image en facteurs spatiaux et d'apparence sans connaissances préalables du domaine ni signaux de supervision. Nous démontrons que LatentKeypointGAN fournit un espace latent interprétable qui peut être utilisé pour réorganiser les images générées en repositionnant et échangeant les plongements de points clés, par exemple, en générant des portraits en combinant les yeux, le nez et la bouche provenant d'images différentes. De plus, la génération explicite de points clés et d'images correspondantes permet une nouvelle méthode basée sur les GANs pour la détection non supervisée de points clés.