HyperAIHyperAI
il y a 3 mois

VICTR : Représentation textuelle capturant l'information visuelle pour les tâches multimodales texte-à-image

Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon
VICTR : Représentation textuelle capturant l'information visuelle pour les tâches multimodales texte-à-image
Résumé

Les tâches multimodales de génération ou de récupération d’image à partir d’une description textuelle sont extrêmement complexes, car les descriptions textuelles brutes contiennent généralement une information visuelle très limitée pour décrire pleinement des images réalistes. Nous proposons une nouvelle représentation textuelle contextuelle visuelle pour les tâches multimodales texte-image, appelée VICTR (Visual Contextual Text Representation), qui capture des informations sémantiques visuelles riches à partir de l’entrée textuelle. Premièrement, nous utilisons la description textuelle comme entrée initiale, effectuons une analyse syntaxique (parsing de dépendance) pour extraire la structure syntaxique et analyser les aspects sémantiques, notamment les quantités d’objets, afin d’extraire un graphe de scène. Ensuite, nous entraînons les objets, attributs et relations présents dans ce graphe de scène, ainsi que les informations correspondantes de relations géométriques, à l’aide de réseaux de convolution de graphe (Graph Convolutional Networks), ce qui permet de générer une représentation textuelle intégrant à la fois des informations sémantiques textuelles et visuelles. Cette représentation textuelle est ensuite combinée avec des embeddings au niveau des mots et au niveau des phrases pour produire des représentations contextuelles visuelles au niveau des mots et des phrases. Pour l’évaluation, nous avons intégré VICTR aux modèles de pointe dans la génération texte-image. VICTR peut être facilement ajoutée aux modèles existants et améliore significativement les performances, tant sur le plan quantitatif que qualitatif.