LDRE : Raisonnement divergent basé sur les LLM et ensemble pour la recherche d'images composées zéro-shot
Le Retrieval d’images composées sans apprentissage (Zero-Shot Composed Image Retrieval, ZS-CIR) a suscité un intérêt croissant ces dernières années. Cette tâche vise à récupérer une image cible à partir d’une requête composée d’une image de référence et d’un texte de modification, sans nécessiter d’échantillons d’apprentissage. Plus précisément, le texte de modification décrit les différences entre les deux images. Les méthodes actuelles pour le ZS-CIR exploitent généralement des modèles pré-entraînés image-vers-texte afin de transformer l’image et le texte de requête en une seule description textuelle, qui est ensuite projetée dans l’espace de caractéristiques commun par CLIP pour effectuer la récupération de l’image cible. Toutefois, ces approches négligent le fait que le ZS-CIR est typiquement une tâche de recherche floue, où les sémantiques de l’image cible ne sont pas strictement définies par la combinaison de l’image de référence et du texte de modification. Pour surmonter cette limitation, cette étude propose une méthode sans entraînement basée sur un grand modèle linguistique (LLM), appelée Raisonnement divergent et Ensamble (LDRE), pour capturer les diverses sémantiques possibles du résultat composé. Premièrement, nous utilisons un modèle pré-entraîné de génération de légendes pour produire des légendes denses pour l’image de référence, en mettant l’accent sur différentes perspectives sémantiques de cette image. Ensuite, nous sollicitons les grands modèles linguistiques (LLM) pour mener un raisonnement composé divergent fondé sur ces légendes denses et le texte de modification, afin d’obtenir des légendes modifiées divergentes couvrant les sémantiques possibles de l’image cible composée. Enfin, nous concevons un mécanisme d’ensemble de légendes divergentes, qui permet d’obtenir une caractéristique de légende combinée pondérée par des scores de pertinence sémantique, utilisée par la suite pour récupérer l’image cible dans l’espace de caractéristiques CLIP. Des expériences étendues sur trois jeux de données publics démontrent que notre méthode LDRE atteint de nouveaux états de l’art.