HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage compositionnel de requêtes image-texte pour la recherche d'images

Muhammad Umer Anwaar; Egor Labintcev; Martin Kleinsteuber

Résumé

Dans cet article, nous examinons le problème de la recherche d'images dans une base de données à partir d'une requête multi-modale (image-texte). Plus précisément, le texte de la requête induit certaines modifications dans l'image de la requête, et la tâche consiste à retrouver des images avec les modifications souhaitées. Par exemple, une utilisatrice d'une plateforme e-commerce souhaite acheter une robe qui ressemble à celle de son amie, mais cette robe doit être blanche et ornée d'un ruban ceinture. Dans ce cas, nous voulons que l'algorithme retrouve des robes avec les modifications souhaitées sur l'image de la requête. Nous proposons un modèle basé sur un autoencodeur, appelé ComposeAE, pour apprendre la composition de la requête image-texte afin de retrouver des images. Nous adoptons une approche d'apprentissage profond par métrique et apprenons une métrique qui rapproche la composition de l'image source et du texte de la requête des images cibles. Nous proposons également une contrainte de symétrie rotationnelle sur le problème d'optimisation. Notre approche est capable de surpasser la méthode d'état de l'art TIRG \cite{TIRG} sur trois ensembles de données de référence : MIT-States, Fashion200k et Fashion IQ. Pour garantir une comparaison équitable, nous introduisons des baselines robustes en améliorant la méthode TIRG. Afin d'assurer la reproductibilité des résultats, nous publions notre code ici : \url{https://github.com/ecom-research/ComposeAE}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage compositionnel de requêtes image-texte pour la recherche d'images | Articles | HyperAI