HyperAIHyperAI
il y a 17 jours

Reason-before-Retrieve : Chaîne de réflexion à une étape pour une récupération d’images composées zéro-shot sans entraînement

Yuanmin Tang, Xiaoting Qin, Jue Zhang, Jing Yu, Gaopeng Gou, Gang Xiong, Qingwei Ling, Saravan Rajmohan, Dongmei Zhang, Qi Wu
Reason-before-Retrieve : Chaîne de réflexion à une étape pour une récupération d’images composées zéro-shot sans entraînement
Résumé

La recherche d’images composées (CIR) vise à récupérer des images cibles s’apparentant étroitement à une image de référence tout en intégrant des modifications textuelles spécifiées par l’utilisateur, permettant ainsi de capturer plus précisément l’intention de ce dernier. Les méthodes actuelles de CIR zéro-shot sans entraînement (ZS-CIR) reposent souvent sur un processus en deux étapes : elles commencent par générer une légende pour l’image de référence, puis utilisent des grands modèles linguistiques (LLM) pour raisonner et obtenir une description cible. Toutefois, ces approches souffrent de pertes de détails visuels essentiels et de capacités de raisonnement limitées, entraînant des performances de récupération sous-optimales. Pour surmonter ces défis, nous proposons une nouvelle méthode en une seule étape, sans entraînement, appelée OSrCIR (One-Stage Reflective Chain-of-Thought Reasoning for ZS-CIR), qui exploite les grands modèles multimodaux pour préserver les informations visuelles cruciales au sein d’un processus de raisonnement unique, éliminant ainsi la perte d’information caractéristique des méthodes en deux étapes. Notre cadre de raisonnement en chaîne réfléchie améliore davantage la précision interprétable en alignant l’intention de modification avec les indices contextuels extraits de l’image de référence. OSrCIR atteint des gains de performance compris entre 1,80 % et 6,44 % par rapport aux méthodes existantes sans entraînement, sur plusieurs tâches, établissant de nouveaux états de l’art dans le domaine de la CIR zéro-shot et renforçant son utilité dans les applications vision-langage. Le code sera disponible à l’adresse suivante : https://github.com/Pter61/osrcir2024/.

Reason-before-Retrieve : Chaîne de réflexion à une étape pour une récupération d’images composées zéro-shot sans entraînement | Articles de recherche récents | HyperAI