il y a 17 jours

LatteGAN : Attention Linguistique Guidée Visuellement pour la Manipulation d'Images Conditionnées par le Texte à Plusieurs Tours

Shoya Matsumori, Yuki Abe, Kosuke Shingyouchi, Komei Sugiura, Michita Imai

Résumé

Les tâches de manipulation d’image guidée par le texte ont récemment attiré une attention croissante au sein de la communauté vision-langage. Alors que la plupart des études antérieures se sont concentrées sur la manipulation à un seul tour, l’objectif de ce papier est de traiter la tâche plus exigeante de manipulation d’image multi-tours (MTIM, multi-turn image manipulation). Les modèles précédents pour cette tâche ont réussi à générer des images de manière itérative, à partir d’une séquence d'instructions et d’une image précédemment générée. Toutefois, cette approche souffre de sous-génération et d’un manque de qualité dans la génération des objets décrits dans les instructions, ce qui entraîne une dégradation globale des performances. Pour surmonter ces limites, nous proposons une nouvelle architecture appelée LatteGAN (Visually Guided Language Attention GAN). Cette architecture introduit un module innovant, le module d’attention linguistique guidée visuellement (Latte), qui extrait des représentations textuelles fines pour le générateur, ainsi qu’une architecture de discriminateur U-Net conditionnée par le texte, capable de discriminer à la fois les représentations globales et locales des images réelles ou falsifiées. Des expériences étendues sur deux jeux de données distincts pour la MTIM, CoDraw et i-CLEVR, démontrent que le modèle proposé atteint des performances de pointe.