HyperAIHyperAI

Command Palette

Search for a command to run...

Composition de texte et d'image pour la recherche d'images - Une odysée empirique

Nam Vo Lu Jiang Chen Sun Kevin Murphy Li-Jia Li Li Fei-Fei James Hays

Résumé

Dans cet article, nous étudions la tâche de recherche d'images, où la requête d'entrée est spécifiée sous la forme d'une image accompagnée de texte décrivant les modifications souhaitées à apporter à l'image d'entrée. Par exemple, nous pourrions présenter une image de la tour Eiffel et demander au système de trouver des images qui soient visuellement similaires mais modifiées de manière mineure, comme étant prises la nuit au lieu du jour. Pour aborder cette tâche, nous apprenons une métrique de similarité entre une image cible et une image source ainsi que le texte source, en utilisant une fonction d'embedding et de composition telle que la caractéristique de l'image cible soit proche de la caractéristique composée de l'image source et du texte. Nous proposons une nouvelle méthode pour combiner l'image et le texte en utilisant une telle fonction conçue spécifiquement pour la tâche de recherche. Nous montrons que cette approche surpasse les méthodes existantes sur trois jeux de données différents, à savoir Fashion-200k, MIT-States et un nouveau jeu de données synthétique que nous créons à partir de CLEVR. Nous démontrons également que notre approche peut être utilisée pour classifier les requêtes d'entrée, en plus de la recherche d'images.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp