CoLLM : Un Modèle de Langage Énorme pour la Récupération d'Images Composées

La recherche d’images composées (CIR) est une tâche complexe visant à récupérer des images à partir d’une requête multimodale. Les données d’entraînement classiques se composent de triplets contenant une image de référence, une description textuelle des modifications souhaitées, et l’image cible, qui sont coûteuses et chronophages à collecter. La rareté des jeux de données CIR a conduit à l’émergence de méthodes zéro-shot utilisant des triplets synthétiques ou exploitant des modèles vision-langage (VLM) à partir de paires image-caption obtenues par web-crawling. Toutefois, ces approches présentent des limites importantes : les triplets synthétiques souffrent d’une échelle limitée, d’une diversité insuffisante et de textes de modification peu naturels, tandis que les paires image-caption entravent l’apprentissage conjoint des représentations multimodales de la requête en raison de l’absence de données de type triplet. En outre, les approches existantes peinent à traiter des textes de modification complexes et subtils, qui exigent une fusion et une compréhension sophistiquées des modalités visuelles et linguistiques. Nous proposons CoLLM, un cadre intégré qui répond efficacement à ces limites. Notre approche génère des triplets en temps réel à partir de paires image-caption, permettant un apprentissage supervisé sans annotation manuelle. Nous exploitons des grands modèles linguistiques (LLM) pour générer des embeddings conjoints des images de référence et des textes de modification, favorisant une fusion multimodale approfondie. Par ailleurs, nous introduisons MTCIR, un nouveau jeu de données à grande échelle comprenant 3,4 millions d’échantillons, et améliorons les benchmarks existants (CIRR et Fashion-IQ) afin d’assurer une évaluation plus fiable. Les résultats expérimentaux démontrent que CoLLM atteint des performances de pointe sur plusieurs benchmarks et configurations CIR. MTCIR permet des résultats compétitifs, avec une amélioration pouvant atteindre 15 %. Nos benchmarks révisés offrent des métriques d’évaluation plus fiables pour les modèles CIR, contribuant ainsi à l’avancement de ce domaine crucial.