HyperAIHyperAI
il y a 2 mois

Récupération d'images composées zéro-shot sans entraînement par fusion modale pondérée et similarité

Ren-Di Wu; Yu-Yen Lin; Huei-Fang Yang
Récupération d'images composées zéro-shot sans entraînement par fusion modale pondérée et similarité
Résumé

La recherche d'images composées (CIR), qui formule la requête comme une combinaison d'une image de référence et d'un texte modifié, est apparue comme une nouvelle forme de recherche d'images grâce à sa capacité améliorée à capturer l'intention de l'utilisateur. Cependant, l'entraînement supervisé d'un modèle CIR nécessite généralement une collecte fastidieuse de triplets (image de référence, modificateur de texte, image cible). Bien que les méthodes existantes de CIR à zéro-shot (ZS-CIR) éliminent le besoin d'entraîner sur des ensembles de données spécifiques en aval, elles nécessitent encore un pré-entraînement supplémentaire sur des ensembles de données d'images à grande échelle. Dans cet article, nous présentons une approche sans entraînement pour le ZS-CIR. Notre méthode, Fusion pondérée des modalités et similarité pour CIR (WeiMoCIR), repose sur l'hypothèse que les modalités image et texte peuvent être combinées efficacement en utilisant une moyenne pondérée simple. Ceci permet de construire directement la représentation de la requête à partir de l'image de référence et du modificateur de texte. Pour améliorer davantage les performances de la recherche, nous utilisons des grands modèles linguistiques multimodaux (MLLMs) pour générer des légendes d'images pour les images de la base de données et intégrer ces légendes textuelles dans le calcul de similarité en les combinant avec les informations d'image par une moyenne pondérée. Notre approche est simple, facile à mettre en œuvre, et son efficacité est validée par des expériences menées sur les ensembles de données FashionIQ et CIRR. Le code est disponible à l'adresse suivante : https://github.com/whats2000/WeiMoCIR.

Récupération d'images composées zéro-shot sans entraînement par fusion modale pondérée et similarité | Articles de recherche récents | HyperAI