HyperAIHyperAI
il y a 2 mois

Formation efficace uniquement linguistique pour la recherche d'images composites à zéro-shot

Geonmo Gu; Sanghyuk Chun; Wonjae Kim; Yoohoon Kang; Sangdoo Yun
Formation efficace uniquement linguistique pour la recherche d'images composites à zéro-shot
Résumé

La tâche de recherche d'images composées (CIR) consiste à prendre une requête composée d'une image et d'un texte, dans le but de rechercher des images pertinentes pour les deux conditions. Les approches traditionnelles de CIR nécessitent un ensemble de données d'entraînement composé de triplets incluant une image de requête, un texte de requête et une image cible, ce qui est très coûteux à collecter. Plusieurs travaux récents se sont penchés sur le paradigme CIR à zéro tirage (ZS-CIR) pour aborder cette problématique sans utiliser des triplets précollectés. Cependant, les méthodes actuelles de ZS-CIR montrent une scalabilité limitée du backbone et une généralisabilité restreinte en raison du manque de diversité des textes d'entrée lors de l'entraînement.Nous proposons un nouveau cadre CIR ne s'appuyant que sur la langue pour son entraînement. Notre LinCIR (Entraînement uniquement linguistique pour CIR) peut être formé uniquement avec des ensembles de données textuelles grâce à une nouvelle forme d'auto-supervision appelée projection auto-masquée (SMP). Nous projetons l'embedding latent du texte dans l'espace d'embedding des tokens et construisons un nouveau texte en remplaçant les tokens-clés du texte original. Ensuite, nous faisons en sorte que le nouveau texte et le texte original aient le même vecteur d'embedding latent. Avec cette stratégie simple, LinCIR s'avère étonnamment efficace et performante ; LinCIR avec le backbone CLIP ViT-G est entraîné en 48 minutes et affiche les meilleures performances ZS-CIR sur quatre différents benchmarks CIR, à savoir CIRCO, GeneCIS, FashionIQ et CIRR, surpassant même la méthode supervisée sur FashionIQ. Le code est disponible à l'adresse suivante : https://github.com/navervision/lincir

Formation efficace uniquement linguistique pour la recherche d'images composites à zéro-shot | Articles de recherche récents | HyperAI