HyperAIHyperAI
il y a 18 jours

Amélioration sémantique incrémentale bénéficiant à la recherche d’images composées sans exemple (zero-shot)

{Changsheng Xu, WeiMing Dong, Fan Yang, JiaHong Wu, Dizhan Xue, Shengsheng Qian, Zhenyu Yang}
Résumé

Le Retrieval d’images composées sans apprentissage (Zero-Shot Composed Image Retrieval, ZS-CIR) a récemment attiré une attention croissante, en se concentrant sur la récupération d’une image spécifique à partir d’une requête composée d’une image de référence et d’un texte relatif, sans nécessiter d’échantillons d’apprentissage. Plus précisément, le texte relatif décrit les différences entre les deux images. Les méthodes actuelles de ZS-CIR utilisent des modèles image-vers-texte (I2T) pour transformer l’image de requête en une seule légende, qui est ensuite combinée avec le texte relatif via des approches de fusion de texte afin de former un texte composé utilisé pour la recherche. Toutefois, ces méthodes négligent le fait que le ZS-CIR exige non seulement de considérer la similarité finale entre le texte composé et les images récupérées, mais aussi l’augmentation sémantique survenue durant le processus d’édition compositionnelle. Pour remédier à cette limitation, cette étude propose une méthode sans entraînement appelée SEIZE (Semantic Editing Increment for ZS-CIR), permettant de récupérer l’image cible à partir de l’image de requête et du texte relatif sans apprentissage supervisé. Premièrement, nous utilisons un modèle pré-entraîné de génération de légendes pour produire plusieurs légendes diversifiées à partir de l’image de référence, puis sollicitons des Modèles de Langage Énormes (LLM) pour effectuer une raisonnement compositionnel large basé sur ces légendes et le texte relatif, afin de couvrir efficacement les sémantiques potentielles de l’image cible. Ensuite, nous concevons une recherche sémantique d’édition qui intègre l’augmentation sémantique apportée par le texte relatif dans le processus de récupération. Plus précisément, nous considérons de manière intégrée l’augmentation sémantique relative et la similarité absolue comme score final de récupération, qui est ensuite utilisé pour localiser l’image cible dans l’espace de caractéristiques CLIP. Des expérimentations étendues sur trois jeux de données publics démontrent que notre méthode SEIZE atteint un nouveau état de l’art. Le code source est disponible publiquement à l’adresse suivante : https://github.com/yzy-bupt/SEIZE.

Amélioration sémantique incrémentale bénéficiant à la recherche d’images composées sans exemple (zero-shot) | Articles de recherche récents | HyperAI