Vision par le langage pour la recherche d'images compositionnelle sans entraînement

Étant donné une image et une modification cible (par exemple, une image de la tour Eiffel et le texte « sans personnes et à la nuit »), la Recherche d'Images Compositionnelle (RIC) vise à récupérer l'image cible pertinente dans une base de données. Bien que les approches supervisées reposent sur l'annotation de triplets, ce qui est coûteux (c'est-à-dire l'image de requête, la modification textuelle et l'image cible), les recherches récentes évitent cette nécessité en utilisant des modèles vision-langage à grande échelle (VLMs), réalisant ainsi la RIC Zero-Shot (ZS-RIC). Cependant, les approches les plus avancées en ZS-RIC nécessitent toujours l'entraînement de modèles spécifiques à la tâche et personnalisés sur de grandes quantités de paires image-texte. Dans ce travail, nous proposons d'aborder la RIC sans entraînement grâce à notre méthode Compositional Image Retrieval through Vision-by-Language (CIReVL), un pipeline simple, compréhensible par l'homme et évolutif qui combine efficacement des VLMs à grande échelle avec des grands modèles linguistiques (LLMs). En légendant l'image de référence avec un VLM génératif pré-entraîné et en demandant à un LLM de recomposer le légende en fonction de la modification textuelle cible pour une recherche ultérieure via par exemple CLIP, nous atteignons un raisonnement linguistique modulaire. Dans quatre benchmarks ZS-RIC, nous obtenons des performances compétitives, en partie au niveau de l'état de l'art - surpassant les méthodes supervisées. De plus, la modularité du CIReVL offre une évolutivité simple sans ré-entraînement, nous permettant d'étudier les lois d'évolutivité et les goulots d'étranglement pour le ZS-RIC tout en facilitant l'évolution jusqu'à plus du double des résultats précédemment rapportés. Enfin, nous montrons que CIReVL rend la RIC compréhensible par l'homme en composant images et texte de manière modulaire dans le domaine linguistique, ce qui la rend également interprétable, permettant d'aligner a posteriori les cas d'échec. Le code sera publié à l'acceptation.Note: - "Compositional Image Retrieval" is translated as "Recherche d'Images Compositionnelle" (RIC).- "Zero-Shot Compositional Image Retrieval" is translated as "RIC Zero-Shot" (ZS-RIC).- "Vision-Language Models" is translated as "modèles vision-langage" (VLMs).- "Large Language Models" is translated as "grands modèles linguistiques" (LLMs).- "CLIP" remains unchanged as it is a proper noun referring to a specific model.- The term "post-hoc re-align failure cases" is translated as "aligner a posteriori les cas d'échec," which maintains the technical meaning while being more natural in French.