HyperAIHyperAI

Command Palette

Search for a command to run...

VICTR : Représentation textuelle capturant l'information visuelle pour les tâches multimodales texte-à-image

Soyeon Caren Han Siqu Long Siwen Luo Kunze Wang Josiah Poon

Résumé

Les tâches multimodales de génération ou de récupération d’image à partir d’une description textuelle sont extrêmement complexes, car les descriptions textuelles brutes contiennent généralement une information visuelle très limitée pour décrire pleinement des images réalistes. Nous proposons une nouvelle représentation textuelle contextuelle visuelle pour les tâches multimodales texte-image, appelée VICTR (Visual Contextual Text Representation), qui capture des informations sémantiques visuelles riches à partir de l’entrée textuelle. Premièrement, nous utilisons la description textuelle comme entrée initiale, effectuons une analyse syntaxique (parsing de dépendance) pour extraire la structure syntaxique et analyser les aspects sémantiques, notamment les quantités d’objets, afin d’extraire un graphe de scène. Ensuite, nous entraînons les objets, attributs et relations présents dans ce graphe de scène, ainsi que les informations correspondantes de relations géométriques, à l’aide de réseaux de convolution de graphe (Graph Convolutional Networks), ce qui permet de générer une représentation textuelle intégrant à la fois des informations sémantiques textuelles et visuelles. Cette représentation textuelle est ensuite combinée avec des embeddings au niveau des mots et au niveau des phrases pour produire des représentations contextuelles visuelles au niveau des mots et des phrases. Pour l’évaluation, nous avons intégré VICTR aux modèles de pointe dans la génération texte-image. VICTR peut être facilement ajoutée aux modèles existants et améliore significativement les performances, tant sur le plan quantitatif que qualitatif.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp