CaLa : Apprentissage par association complémentaire pour améliorer la recherche d’images composées

La recherche d’images composées (CIR) consiste à rechercher des images cibles à partir d’une requête combinant une image et un texte. Alors que les méthodes actuelles traitent ce problème comme une correspondance entre la requête et l’image cible, nous soutenons que les triplets CIR contiennent des associations supplémentaires au-delà de cette relation principale. Dans notre travail, nous identifions deux nouvelles relations au sein des triplets, en considérant chaque triplet comme un nœud de graphe. Premièrement, nous introduisons le concept d’alignement image-image par pontage textuel, où le texte de la requête sert de pont entre l’image de requête et l’image cible. Nous proposons un mécanisme d’attention croisée basé sur une fonction d’encadrement (hinge) pour intégrer cette relation dans l’apprentissage du réseau. Deuxièmement, nous explorons le raisonnement textuel complémentaire, en considérant la CIR comme une forme de recherche multimodale où deux images s’associent pour raisonner sur un texte complémentaire. Pour intégrer efficacement ces perspectives, nous concevons un compositeur fondé sur une attention jumelée. En combinant ces associations complémentaires avec la relation explicite entre la paire requête-image et l’image cible, nous établissons un ensemble complet de contraintes pour la CIR. Notre cadre, CaLa (Complementary Association Learning for Augmenting Composed Image Retrieval), exploite ces insights. Nous évaluons CaLa sur les benchmarks CIRR et FashionIQ, en utilisant plusieurs architectures de base, démontrant ainsi son avantage dans la recherche d’images composées.