Recherche d’images composées guidée par la cible

La recherche d'images composées (CIR) est un nouveau paradigme souple et innovant pour la recherche d'images, permettant de retrouver l'image cible à partir d'une requête multimodale composée d'une image de référence et d'un texte décrivant sa modification. Bien que les travaux existants aient obtenu des résultats prometteurs, ils négligent deux aspects cruciaux : d'une part, la modélisation de la relation de conflit entre l'image de référence et le texte de modification, essentielle pour améliorer la composition de la requête multimodale ; d'autre part, la modélisation adaptative du degré de correspondance, nécessaire pour mieux classer les images candidates qui peuvent présenter des niveaux variés de similarité par rapport à la requête donnée. Pour surmonter ces deux limitations, nous proposons dans ce travail un réseau de recherche d'images composées guidé par la cible (TG-CIR). Plus précisément, TG-CIR extrait d'abord des caractéristiques globales et locales unifiées pour l'image de référence/cible et le texte de modification en utilisant un modèle pré-entraîné en vision et langage (CLIP) comme architecture de base. Une régularisation orthogonale est introduite afin de favoriser l'indépendance entre les différentes caractéristiques d'attributs. Ensuite, TG-CIR conçoit un module de composition de requête multimodale guidé par la relation cible-requête, composé d'une branche étudiante indépendante de la cible et d'une branche professeur dépendante de la cible. La relation entre la cible et la requête est intégrée dans la branche professeur afin de guider la modélisation du conflit au sein de la branche étudiante. Enfin, en complément de la perte classique de classification basée sur les lots, TG-CIR introduit une régularisation supplémentaire basée sur les lots, guidée par la similarité cible, afin d’améliorer le processus d’apprentissage de métriques. Des expériences étendues menées sur trois jeux de données de référence démontrent clairement l’efficacité et la supériorité de la méthode proposée.