Apprentissage compositionnel de requêtes image-texte pour la recherche d'images

Dans cet article, nous examinons le problème de la recherche d'images dans une base de données à partir d'une requête multi-modale (image-texte). Plus précisément, le texte de la requête induit certaines modifications dans l'image de la requête, et la tâche consiste à retrouver des images avec les modifications souhaitées. Par exemple, une utilisatrice d'une plateforme e-commerce souhaite acheter une robe qui ressemble à celle de son amie, mais cette robe doit être blanche et ornée d'un ruban ceinture. Dans ce cas, nous voulons que l'algorithme retrouve des robes avec les modifications souhaitées sur l'image de la requête. Nous proposons un modèle basé sur un autoencodeur, appelé ComposeAE, pour apprendre la composition de la requête image-texte afin de retrouver des images. Nous adoptons une approche d'apprentissage profond par métrique et apprenons une métrique qui rapproche la composition de l'image source et du texte de la requête des images cibles. Nous proposons également une contrainte de symétrie rotationnelle sur le problème d'optimisation. Notre approche est capable de surpasser la méthode d'état de l'art TIRG \cite{TIRG} sur trois ensembles de données de référence : MIT-States, Fashion200k et Fashion IQ. Pour garantir une comparaison équitable, nous introduisons des baselines robustes en améliorant la méthode TIRG. Afin d'assurer la reproductibilité des résultats, nous publions notre code ici : \url{https://github.com/ecom-research/ComposeAE}.