HyperAIHyperAI

Command Palette

Search for a command to run...

LatteGAN : Attention Linguistique Guidée Visuellement pour la Manipulation d'Images Conditionnées par le Texte à Plusieurs Tours

Shoya Matsumori Yuki Abe Kosuke Shingyouchi Komei Sugiura Michita Imai

Résumé

Les tâches de manipulation d’image guidée par le texte ont récemment attiré une attention croissante au sein de la communauté vision-langage. Alors que la plupart des études antérieures se sont concentrées sur la manipulation à un seul tour, l’objectif de ce papier est de traiter la tâche plus exigeante de manipulation d’image multi-tours (MTIM, multi-turn image manipulation). Les modèles précédents pour cette tâche ont réussi à générer des images de manière itérative, à partir d’une séquence d'instructions et d’une image précédemment générée. Toutefois, cette approche souffre de sous-génération et d’un manque de qualité dans la génération des objets décrits dans les instructions, ce qui entraîne une dégradation globale des performances. Pour surmonter ces limites, nous proposons une nouvelle architecture appelée LatteGAN (Visually Guided Language Attention GAN). Cette architecture introduit un module innovant, le module d’attention linguistique guidée visuellement (Latte), qui extrait des représentations textuelles fines pour le générateur, ainsi qu’une architecture de discriminateur U-Net conditionnée par le texte, capable de discriminer à la fois les représentations globales et locales des images réelles ou falsifiées. Des expériences étendues sur deux jeux de données distincts pour la MTIM, CoDraw et i-CLEVR, démontrent que le modèle proposé atteint des performances de pointe.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp