HyperAIHyperAI
il y a 2 mois

Récupération d'Images Composées pour la Conversion de Domaine sans Apprentissage Supervisé

Nikos Efthymiadis; Bill Psomas; Zakaria Laskar; Konstantinos Karantzalos; Yannis Avrithis; Ondřej Chum; Giorgos Tolias
Récupération d'Images Composées pour la Conversion de Domaine sans Apprentissage Supervisé
Résumé

Ce travail aborde la recherche d'images composites dans le contexte de conversion de domaine, où le contenu d'une image de requête est récupéré dans le domaine spécifié par le texte de la requête. Nous démontrons qu'un modèle vision-langage puissant fournit une capacité descriptive suffisante sans entraînement supplémentaire. L'image de requête est mappée vers l'espace d'entrée textuel à l'aide de l'inversion textuelle. Contrairement aux pratiques courantes qui inversent dans l'espace continu des jetons textuels, nous utilisons l'espace discret des mots via une recherche du plus proche voisin dans un vocabulaire textuel. Grâce à cette inversion, l'image est doucement mappée à travers le vocabulaire et rendue plus robuste grâce à une augmentation basée sur la recherche. Les images de la base de données sont récupérées par un ensemble pondéré de requêtes textuelles combinant les mots mappés avec le texte du domaine. Notre méthode surpasse largement les travaux antérieurs sur des benchmarks standards et récemment introduits. Code : https://github.com/NikosEfth/freedom