Récupération d'images conditionnelle et composée efficace combinant des caractéristiques basées sur CLIP

La recherche d’images conditionnelle et composée étend les systèmes de recherche d’images par contenu (CBIR) en combinant une image de requête avec un texte supplémentaire exprimant l’intention de l’utilisateur, décrivant ainsi des demandes additionnelles par rapport au contenu visuel de l’image de départ. Ce type de recherche s’avère particulièrement pertinent pour les applications e-commerce, par exemple pour développer des recherches multimodales interactives ou des chatbots. Dans cette démonstration, nous présentons un système interactif basé sur un réseau combinateur, entraîné par apprentissage contrastif, qui fusionne des caractéristiques visuelles et textuelles extraites du modèle OpenAI CLIP afin de répondre à des requêtes de recherche conditionnelle. Ce système peut être utilisé pour améliorer les moteurs de recherche des boutiques en ligne. Par exemple, dans le domaine de la mode, il permet aux utilisateurs de rechercher des robes, chemises ou t-shirts à partir d’une image de départ, tout en précisant des différences visuelles souhaitées par rapport à cette image, comme changer la couleur, le motif ou la forme. Le réseau proposé atteint des performances de pointe sur le jeu de données FashionIQ ainsi que sur le jeu de données plus récent CIRR, démontrant ainsi son efficacité pour la recherche conditionnelle dans le domaine de la mode, ainsi que sa pertinence pour des contenus plus généraux dans le cadre de la recherche d’images composées.