HyperAIHyperAI
il y a 2 mois

Composition de texte et d'image pour la recherche d'images - Une odysée empirique

Nam Vo; Lu Jiang; Chen Sun; Kevin Murphy; Li-Jia Li; Li Fei-Fei; James Hays
Composition de texte et d'image pour la recherche d'images - Une odysée empirique
Résumé

Dans cet article, nous étudions la tâche de recherche d'images, où la requête d'entrée est spécifiée sous la forme d'une image accompagnée de texte décrivant les modifications souhaitées à apporter à l'image d'entrée. Par exemple, nous pourrions présenter une image de la tour Eiffel et demander au système de trouver des images qui soient visuellement similaires mais modifiées de manière mineure, comme étant prises la nuit au lieu du jour. Pour aborder cette tâche, nous apprenons une métrique de similarité entre une image cible et une image source ainsi que le texte source, en utilisant une fonction d'embedding et de composition telle que la caractéristique de l'image cible soit proche de la caractéristique composée de l'image source et du texte. Nous proposons une nouvelle méthode pour combiner l'image et le texte en utilisant une telle fonction conçue spécifiquement pour la tâche de recherche. Nous montrons que cette approche surpasse les méthodes existantes sur trois jeux de données différents, à savoir Fashion-200k, MIT-States et un nouveau jeu de données synthétique que nous créons à partir de CLEVR. Nous démontrons également que notre approche peut être utilisée pour classifier les requêtes d'entrée, en plus de la recherche d'images.

Composition de texte et d'image pour la recherche d'images - Une odysée empirique | Articles de recherche récents | HyperAI