HyperAIHyperAI
il y a 17 jours

ARTEMIS : Récupération basée sur l'attention avec correspondance explicite texte et similarité implicite

Ginger Delmas, Rafael Sampaio de Rezende, Gabriela Csurka, Diane Larlus
ARTEMIS : Récupération basée sur l'attention avec correspondance explicite texte et similarité implicite
Résumé

Une approche intuitive pour rechercher des images consiste à utiliser des requêtes composées d’une image exemple et d’un texte complémentaire. Alors que la première fournit un contexte riche et implicite pour la recherche, le second exprime explicitement de nouvelles caractéristiques ou précise comment certaines éléments de l’image exemple doivent être modifiés afin d’obtenir l’image cible souhaitée. Les approches actuelles combinent généralement les caractéristiques des deux éléments de la requête en une seule représentation, qui peut ensuite être comparée à celles des images candidates. Notre travail vise à apporter une nouvelle perspective sur cette tâche en l’abordant à travers deux cadres familiers et liés : la recherche d’images à partir de texte (text-to-image) et la recherche d’images à partir d’images (image-to-image). Inspirés de ces cadres, nous exploitons la relation spécifique de chaque élément de la requête avec l’image cible, et proposons des mécanismes d’attention légers permettant de médier efficacement entre les deux modalités complémentaires. Nous validons notre approche sur plusieurs benchmarks de recherche d’images, en utilisant des images accompagnées de modificateurs textuels à libre formulation. Notre méthode atteint des résultats de pointe sans recourir à des informations auxiliaires, à des caractéristiques multi-niveaux, à un pré-entraînement intensif ni à des architectures complexes, comme cela était nécessaire dans les travaux antérieurs.

ARTEMIS : Récupération basée sur l'attention avec correspondance explicite texte et similarité implicite | Articles de recherche récents | HyperAI