HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération d'images composées zéro-shot sans entraînement par fusion modale pondérée et similarité

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang

Résumé

La recherche d'images composées (CIR), qui formule la requête comme une combinaison d'une image de référence et d'un texte modifié, est apparue comme une nouvelle forme de recherche d'images grâce à sa capacité améliorée à capturer l'intention de l'utilisateur. Cependant, l'entraînement supervisé d'un modèle CIR nécessite généralement une collecte fastidieuse de triplets (image de référence, modificateur de texte, image cible). Bien que les méthodes existantes de CIR à zéro-shot (ZS-CIR) éliminent le besoin d'entraîner sur des ensembles de données spécifiques en aval, elles nécessitent encore un pré-entraînement supplémentaire sur des ensembles de données d'images à grande échelle. Dans cet article, nous présentons une approche sans entraînement pour le ZS-CIR. Notre méthode, Fusion pondérée des modalités et similarité pour CIR (WeiMoCIR), repose sur l'hypothèse que les modalités image et texte peuvent être combinées efficacement en utilisant une moyenne pondérée simple. Ceci permet de construire directement la représentation de la requête à partir de l'image de référence et du modificateur de texte. Pour améliorer davantage les performances de la recherche, nous utilisons des grands modèles linguistiques multimodaux (MLLMs) pour générer des légendes d'images pour les images de la base de données et intégrer ces légendes textuelles dans le calcul de similarité en les combinant avec les informations d'image par une moyenne pondérée. Notre approche est simple, facile à mettre en œuvre, et son efficacité est validée par des expériences menées sur les ensembles de données FashionIQ et CIRR. Le code est disponible à l'adresse suivante : https://github.com/whats2000/WeiMoCIR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp