HyperAIHyperAI
il y a 18 jours

Recherche d'images avec retour textuel par apprentissage de l'attention visiolinguistique

{ Loris Bazzani, Shaogang Gong, Yanbei Chen}
Recherche d'images avec retour textuel par apprentissage de l'attention visiolinguistique
Résumé

La recherche d'images à l'aide de feedback textuel présente un potentiel prometteur dans diverses applications du monde réel, telles que le commerce électronique et les moteurs de recherche internet. Étant donné une image de référence et un feedback textuel fourni par l'utilisateur, l'objectif consiste à récupérer des images qui non seulement ressemblent à l'image d'entrée, mais aussi modifient certains aspects conformément au texte fourni. Ce problème est particulièrement difficile car il nécessite une compréhension synergique à la fois de l'image et du texte. Dans ce travail, nous abordons cette tâche grâce à un cadre novateur appelé Visiolinguistic Attention Learning (VAL). Plus précisément, nous proposons un transformateur composé pouvant être intégré de manière transparente dans un réseau de neurones convolutifs (CNN) afin de préserver et transformer sélectivement les caractéristiques visuelles en fonction du sens linguistique. En insérant plusieurs transformateurs composés à différentes profondeurs, VAL est capable d'encapsuler efficacement des informations visiolinguistiques à plusieurs granularités, aboutissant ainsi à une représentation expressive pour une recherche d'images performante. Nous avons mené une évaluation exhaustive sur trois jeux de données : Fashion200k, Shoes et FashionIQ. Des expériences étendues montrent que notre modèle surpasser toutes les approches existantes sur ces trois jeux de données, démontrant une supériorité constante dans la gestion de divers types de feedback textuel, y compris des descriptions d'attributs et des descriptions en langage naturel.