HyperAIHyperAI

Command Palette

Search for a command to run...

Formation efficace uniquement linguistique pour la recherche d'images composites à zéro-shot

Geonmo Gu Sanghyuk Chun Wonjae Kim Yoohoon Kang Sangdoo Yun

Résumé

La tâche de recherche d'images composées (CIR) consiste à prendre une requête composée d'une image et d'un texte, dans le but de rechercher des images pertinentes pour les deux conditions. Les approches traditionnelles de CIR nécessitent un ensemble de données d'entraînement composé de triplets incluant une image de requête, un texte de requête et une image cible, ce qui est très coûteux à collecter. Plusieurs travaux récents se sont penchés sur le paradigme CIR à zéro tirage (ZS-CIR) pour aborder cette problématique sans utiliser des triplets précollectés. Cependant, les méthodes actuelles de ZS-CIR montrent une scalabilité limitée du backbone et une généralisabilité restreinte en raison du manque de diversité des textes d'entrée lors de l'entraînement.Nous proposons un nouveau cadre CIR ne s'appuyant que sur la langue pour son entraînement. Notre LinCIR (Entraînement uniquement linguistique pour CIR) peut être formé uniquement avec des ensembles de données textuelles grâce à une nouvelle forme d'auto-supervision appelée projection auto-masquée (SMP). Nous projetons l'embedding latent du texte dans l'espace d'embedding des tokens et construisons un nouveau texte en remplaçant les tokens-clés du texte original. Ensuite, nous faisons en sorte que le nouveau texte et le texte original aient le même vecteur d'embedding latent. Avec cette stratégie simple, LinCIR s'avère étonnamment efficace et performante ; LinCIR avec le backbone CLIP ViT-G est entraîné en 48 minutes et affiche les meilleures performances ZS-CIR sur quatre différents benchmarks CIR, à savoir CIRCO, GeneCIS, FashionIQ et CIRR, surpassant même la méthode supervisée sur FashionIQ. Le code est disponible à l'adresse suivante : https://github.com/navervision/lincir


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Formation efficace uniquement linguistique pour la recherche d'images composites à zéro-shot | Articles | HyperAI