Récupération d'images conditionnée et composée combinant des caractéristiques CLIP ajustées partiellement et entièrement

Dans cet article, nous présentons une méthode de recherche d’images conditionnelle et composée fondée sur les caractéristiques CLIP. Dans cette extension de la recherche d’images par contenu (CBIR), une image est associée à un texte qui exprime les intentions de l’utilisateur et est pertinent pour des domaines d’application tels que le commerce électronique. La méthode proposée repose sur une phase initiale d’entraînement, durant laquelle une combinaison simple des caractéristiques visuelles et textuelles est utilisée pour ajuster finement l’encodeur texte de CLIP. Ensuite, lors d’une deuxième phase d’entraînement, nous apprenons un réseau de combinaison plus complexe capable de fusionner les caractéristiques visuelles et textuelles. L’apprentissage contrastif est employé dans les deux phases. L’approche proposée atteint des performances de pointe pour la recherche d’images conditionnelle sur le jeu de données FashionIQ, ainsi que pour la recherche d’images composée sur le jeu de données plus récent CIRR.