HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération d'Images sur des Images Réelles avec des Modèles Pré-entraînés Vision-et-Langage

Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould

Résumé

Nous étendons la tâche de recherche d'images composées, où une requête d'entrée est constituée d'une image et d'une brève description textuelle de la manière dont l'image doit être modifiée. Les méthodes existantes n'ont été appliquées qu'à des images non complexes dans des domaines restreints, comme les produits de mode, ce qui limite l'étendue des études sur le raisonnement visuel approfondi dans des contextes riches en images et en langage. Pour remédier à ce problème, nous avons collecté le jeu de données Compose Image Retrieval on Real-life images (CIRR), qui comprend plus de 36 000 paires d'images ouvertes et multidomaines générées par la foule, accompagnées de textes modificateurs produits par des humains. Afin d'étendre les méthodes actuelles au domaine ouvert, nous proposons CIRPLANT, un modèle basé sur les transformateurs qui exploite une connaissance pré-entraînée riche en vision et en langage (V&L) pour modifier les caractéristiques visuelles conditionnées par le langage naturel. La recherche se fait ensuite par recherche du plus proche voisin sur les caractéristiques modifiées. Nous démontrons que, avec une architecture relativement simple, CIRPLANT surpassse les méthodes existantes sur des images du domaine ouvert tout en atteignant une précision comparable à l'état de l'art sur les jeux de données existants restreints, tels que ceux consacrés à la mode. Avec la publication de CIRR, nous croyons que ce travail inspirera des recherches supplémentaires sur la recherche d'images composées.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp