HyperAIHyperAI

Command Palette

Search for a command to run...

MagicLens : Recherche d'images auto-supervisée avec des instructions ouvertes

Kai Zhang Yi Luan Hexiang Hu Kenton Lee Siyuan Qiao Wenhu Chen Yu Su Ming-Wei Chang

Résumé

La recherche d'images, c'est-à-dire le processus de trouver des images souhaitées à partir d'une image de référence, englobe naturellement des intentions de recherche riches et multifacettes qui sont difficiles à capturer uniquement par des mesures basées sur les images. Les travaux récents exploitent des instructions textuelles pour permettre aux utilisateurs d'exprimer plus librement leurs intentions de recherche. Cependant, ces travaux se concentrent principalement sur des paires d'images qui sont visuellement similaires et/ou peuvent être caractérisées par un petit ensemble de relations prédéfinies. La thèse centrale de cet article est que les instructions textuelles peuvent permettre la récupération d'images avec des relations plus riches au-delà de la similarité visuelle. Pour démontrer cela, nous présentons MagicLens, une série de modèles de recherche d'images auto-supervisés qui prennent en charge des instructions ouvertes. MagicLens repose sur une nouvelle intuition clé : les paires d'images qui apparaissent naturellement sur les mêmes pages web contiennent une large gamme de relations implicites (par exemple, vue intérieure), et nous pouvons rendre ces relations explicites en synthétisant des instructions grâce à des modèles fondamentaux. Entraîné sur 36,7 millions de triplets (image de requête, instruction, image cible) avec des relations sémantiques riches extraites du web, MagicLens obtient des résultats comparables ou meilleurs que ceux obtenus précédemment sur huit benchmarks de différentes tâches de recherche d'images, tout en maintenant une efficacité paramétrique élevée avec une taille de modèle considérablement plus petite. Des analyses supplémentaires menées par des humains sur un corpus inconnu composé de 1,4 million d'images démontrent davantage la diversité des intentions de recherche soutenues par MagicLens. Le code et les modèles sont disponibles publiquement à l'adresse suivante : https://open-vision-language.github.io/MagicLens/.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp