Réorganisation de l'ensemble des candidats pour la recherche d'images composites avec un encodeur multi-modal dual

La recherche d'images composées vise à trouver une image qui correspond le mieux à une requête utilisateur multimodale constituée d'une paire d'image de référence et de texte. Les méthodes existantes précalculent généralement les plongements (embeddings) des images sur l'ensemble du corpus et comparent ceux-ci au plongement de l'image de référence modifié par le texte de la requête lors des tests. Bien que ce pipeline soit très efficace lors des tests, car il utilise des distances vectorielles rapides pour évaluer les candidats, modifier le plongement de l'image de référence uniquement guidé par une brève description textuelle peut être difficile, en particulier indépendamment des candidats potentiels. Une approche alternative consiste à permettre des interactions entre la requête et chaque candidat possible, c'est-à-dire des triplets image de référence-texte-candidat, et à sélectionner le meilleur parmi l'ensemble. Bien que cette approche soit plus discriminante, elle est coûteuse en termes de calcul pour les grands ensembles de données, car le précalcul des plongements des candidats n'est plus possible. Nous proposons de combiner les avantages des deux schémas en utilisant un modèle en deux étapes. La première étape adopte la métrique conventionnelle de distance vectorielle et effectue un tri rapide parmi les candidats. Parallèlement, la deuxième étape utilise une architecture d'encodeur dual, qui prend efficacement en compte le triplet d'entrée image de référence-texte-candidat et réordonne les candidats. Les deux étapes s'appuient sur un réseau pré-entraîné vision-et-langage, dont l'utilité a été démontrée pour diverses tâches downstream. Notre méthode surpasse constamment les approches state-of-the-art sur les benchmarks standards pour cette tâche. Notre implémentation est disponible à l'adresse suivante : https://github.com/Cuberick-Orion/Candidate-Reranking-CIR.