il y a 17 jours

Récupération d’images composées par apprentissage contrastif et caractéristiques CLIP orientées vers la tâche

Alberto Baldrati, Marco Bertini, Tiberio Uricchio, Alberto del Bimbo

Résumé

Étant donné une requête composée d'une image de référence et d'une légende relative, l'objectif de la recherche d'images composées consiste à récupérer des images visuellement similaires à l'image de référence tout en intégrant les modifications exprimées par la légende. Étant donné que les recherches récentes ont démontré l'efficacité des modèles pré-entraînés à grande échelle sur les tâches vision-langage (VLP) dans diverses applications, nous nous appuyons sur les caractéristiques extraites du modèle OpenAI CLIP pour aborder cette tâche. Nous procédons d'abord à un fine-tuning orienté vers la tâche des deux encodeurs CLIP en utilisant la somme élément par élément des caractéristiques visuelles et textuelles. Dans une deuxième phase, nous entraînons un réseau Combiner qui apprend à combiner les caractéristiques image-texte en intégrant l'information bimodale, afin de produire des caractéristiques combinées utilisées pour la récupération. Nous utilisons l'apprentissage contrastif dans les deux étapes d'entraînement. À partir des caractéristiques brutes CLIP comme référence, les résultats expérimentaux montrent que le fine-tuning orienté vers la tâche ainsi que le réseau Combiner soigneusement conçu s'avèrent très efficaces, surpassant même des approches de pointe plus complexes sur deux jeux de données populaires et exigeants pour la recherche d'images composées : FashionIQ et CIRR. Le code et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/ABaldrati/CLIP4Cir