HyperAIHyperAI

Command Palette

Search for a command to run...

Imaginer et Chercher : Améliorer la Recherche d'Images Composées avec un Proxy Imaginé

You Li Fan Ma Yi Yang†

Résumé

La récupération d'images composées à zéro coup d'essai (Zero-shot Composed Image Retrieval, ZSCIR) nécessite de retrouver des images qui correspondent à l'image de requête et aux légendes associées. Les méthodes actuelles se concentrent sur la projection de l'image de requête dans l'espace des caractéristiques textuelles, puis sur la combinaison de ces caractéristiques avec celles du texte de requête pour effectuer la recherche. Cependant, la récupération d'images uniquement à partir des caractéristiques textuelles ne peut garantir une correspondance détaillée en raison du fossé naturel entre les images et le texte. Dans cet article, nous présentons Imagined Proxy for CIR (IP-CIR), une méthode sans apprentissage qui crée une image intermédiaire alignée avec l'image de requête et la description textuelle, améliorant ainsi la représentation de la requête dans le processus de recherche. Nous utilisons d'abord les capacités de généralisation des grands modèles linguistiques pour générer un agencement d'image, puis nous appliquons à la fois le texte et l'image de requête pour une génération conditionnelle. Les caractéristiques robustes de la requête sont renforcées par la fusion de l'image intermédiaire, de l'image de requête et des perturbations sémantiques du texte. Notre nouvelle métrique d'équilibrage intègre les similarités basées sur le texte et celles liées à l'image intermédiaire, permettant une récupération plus précise de l'image cible tout en incorporant les informations côté image dans le processus. Des expériences menées sur trois jeux de données publics montrent que notre méthode améliore considérablement les performances de récupération. Nous obtenons des résultats d'état de l'art (state-of-the-art, SOTA) sur le jeu de données CIRR avec un Recall@K de 70,07 pour K=10. De plus, nous avons amélioré le Recall@10 sur le jeu de données FashionIQ, passant de 45,11 à 45,74, et nous avons également amélioré les performances baselines dans CIRCO avec un score mAPK@10 qui est passé de 32,24 à 34,26.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp