HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération d’images composées par apprentissage contrastif et caractéristiques CLIP orientées vers la tâche

Alberto Baldrati Marco Bertini Tiberio Uricchio Alberto del Bimbo

Résumé

Étant donné une requête composée d'une image de référence et d'une légende relative, l'objectif de la recherche d'images composées consiste à récupérer des images visuellement similaires à l'image de référence tout en intégrant les modifications exprimées par la légende. Étant donné que les recherches récentes ont démontré l'efficacité des modèles pré-entraînés à grande échelle sur les tâches vision-langage (VLP) dans diverses applications, nous nous appuyons sur les caractéristiques extraites du modèle OpenAI CLIP pour aborder cette tâche. Nous procédons d'abord à un fine-tuning orienté vers la tâche des deux encodeurs CLIP en utilisant la somme élément par élément des caractéristiques visuelles et textuelles. Dans une deuxième phase, nous entraînons un réseau Combiner qui apprend à combiner les caractéristiques image-texte en intégrant l'information bimodale, afin de produire des caractéristiques combinées utilisées pour la récupération. Nous utilisons l'apprentissage contrastif dans les deux étapes d'entraînement. À partir des caractéristiques brutes CLIP comme référence, les résultats expérimentaux montrent que le fine-tuning orienté vers la tâche ainsi que le réseau Combiner soigneusement conçu s'avèrent très efficaces, surpassant même des approches de pointe plus complexes sur deux jeux de données populaires et exigeants pour la recherche d'images composées : FashionIQ et CIRR. Le code et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/ABaldrati/CLIP4Cir


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récupération d’images composées par apprentissage contrastif et caractéristiques CLIP orientées vers la tâche | Articles | HyperAI