ImageScope : Unification de la recherche d'images guidée par le langage grâce au raisonnement collectif des grands modèles multimodaux

Face à la prolifération des images dans le contenu en ligne, la recherche d’images guidée par le langage (LGIR) est devenue au cours de la dernière décennie un domaine de pointe, englobant une variété de sous-tâches aux formes d’entrée diverses. Bien que le développement des grands modèles multimodaux (LMMs) ait considérablement facilité ces tâches, les approches existantes les traitent souvent de manière isolée, nécessitant la mise en place de systèmes distincts pour chacune. Cela augmente non seulement la complexité du système et les coûts de maintenance, mais accentue également les difficultés liées à l’ambiguïté du langage et à la complexité des contenus visuels, rendant difficile pour les systèmes de recherche d’obtenir des résultats précis et fiables. À cet effet, nous proposons ImageScope, un cadre à trois étapes, sans entraînement, qui exploite un raisonnement collectif afin d’unifier les tâches de LGIR. L’idée centrale de cette unification repose sur la nature compositionnelle du langage, qui permet de transformer les diverses tâches de LGIR en un processus généralisé de recherche texte-vers-image, tandis que le raisonnement des LMMs sert de vérification universelle pour affiner les résultats. Plus précisément, dans la première étape, nous améliorons la robustesse du cadre en synthétisant les intentions de recherche à travers différentes échelles de granularité sémantique à l’aide du raisonnement en chaîne de pensée (CoT). Dans les deuxièmes et troisièmes étapes, nous procédons à une réflexion sur les résultats de recherche en vérifiant localement des propositions prédicatives, puis en effectuant des évaluations par paires de manière globale. Des expérimentations menées sur six jeux de données de LGIR montrent qu’ImageScope surpasse les méthodes de référence. Des évaluations approfondies ainsi que des études d’ablation confirment en outre l’efficacité de notre conception.