MagicLens : Recherche d'images auto-supervisée avec des instructions ouvertes

La recherche d'images, c'est-à-dire le processus de trouver des images souhaitées à partir d'une image de référence, englobe naturellement des intentions de recherche riches et multifacettes qui sont difficiles à capturer uniquement par des mesures basées sur les images. Les travaux récents exploitent des instructions textuelles pour permettre aux utilisateurs d'exprimer plus librement leurs intentions de recherche. Cependant, ces travaux se concentrent principalement sur des paires d'images qui sont visuellement similaires et/ou peuvent être caractérisées par un petit ensemble de relations prédéfinies. La thèse centrale de cet article est que les instructions textuelles peuvent permettre la récupération d'images avec des relations plus riches au-delà de la similarité visuelle. Pour démontrer cela, nous présentons MagicLens, une série de modèles de recherche d'images auto-supervisés qui prennent en charge des instructions ouvertes. MagicLens repose sur une nouvelle intuition clé : les paires d'images qui apparaissent naturellement sur les mêmes pages web contiennent une large gamme de relations implicites (par exemple, vue intérieure), et nous pouvons rendre ces relations explicites en synthétisant des instructions grâce à des modèles fondamentaux. Entraîné sur 36,7 millions de triplets (image de requête, instruction, image cible) avec des relations sémantiques riches extraites du web, MagicLens obtient des résultats comparables ou meilleurs que ceux obtenus précédemment sur huit benchmarks de différentes tâches de recherche d'images, tout en maintenant une efficacité paramétrique élevée avec une taille de modèle considérablement plus petite. Des analyses supplémentaires menées par des humains sur un corpus inconnu composé de 1,4 million d'images démontrent davantage la diversité des intentions de recherche soutenues par MagicLens. Le code et les modèles sont disponibles publiquement à l'adresse suivante : https://open-vision-language.github.io/MagicLens/.