Imaginer et Chercher : Améliorer la Recherche d'Images Composées avec un Proxy Imaginé

La récupération d'images composées à zéro coup d'essai (Zero-shot Composed Image Retrieval, ZSCIR) nécessite de retrouver des images qui correspondent à l'image de requête et aux légendes associées. Les méthodes actuelles se concentrent sur la projection de l'image de requête dans l'espace des caractéristiques textuelles, puis sur la combinaison de ces caractéristiques avec celles du texte de requête pour effectuer la recherche. Cependant, la récupération d'images uniquement à partir des caractéristiques textuelles ne peut garantir une correspondance détaillée en raison du fossé naturel entre les images et le texte. Dans cet article, nous présentons Imagined Proxy for CIR (IP-CIR), une méthode sans apprentissage qui crée une image intermédiaire alignée avec l'image de requête et la description textuelle, améliorant ainsi la représentation de la requête dans le processus de recherche. Nous utilisons d'abord les capacités de généralisation des grands modèles linguistiques pour générer un agencement d'image, puis nous appliquons à la fois le texte et l'image de requête pour une génération conditionnelle. Les caractéristiques robustes de la requête sont renforcées par la fusion de l'image intermédiaire, de l'image de requête et des perturbations sémantiques du texte. Notre nouvelle métrique d'équilibrage intègre les similarités basées sur le texte et celles liées à l'image intermédiaire, permettant une récupération plus précise de l'image cible tout en incorporant les informations côté image dans le processus. Des expériences menées sur trois jeux de données publics montrent que notre méthode améliore considérablement les performances de récupération. Nous obtenons des résultats d'état de l'art (state-of-the-art, SOTA) sur le jeu de données CIRR avec un Recall@K de 70,07 pour K=10. De plus, nous avons amélioré le Recall@10 sur le jeu de données FashionIQ, passant de 45,11 à 45,74, et nous avons également amélioré les performances baselines dans CIRCO avec un score mAPK@10 qui est passé de 32,24 à 34,26.