HyperAIHyperAI
il y a 2 mois

Récupération d'images composées zéro-shot avec inversion textuelle

Baldrati, Alberto ; Agnolucci, Lorenzo ; Bertini, Marco ; Del Bimbo, Alberto
Récupération d'images composées zéro-shot avec inversion textuelle
Résumé

La recherche d'images composites (CIR) vise à récupérer une image cible en fonction d'une requête composée d'une image de référence et d'une légende relative décrivant la différence entre les deux images. Les efforts importants et coûteux nécessaires pour étiqueter les jeux de données pour le CIR entravent l'utilisation généralisée des méthodes existantes, celles-ci reposant sur l'apprentissage supervisé. Dans ce travail, nous proposons une nouvelle tâche, la recherche d'images composites sans supervision (ZS-CIR), qui vise à résoudre le problème du CIR sans nécessiter un jeu de données d'entraînement étiqueté. Notre approche, nommée Zero-Shot composEd imAge Retrieval with textuaL invErsion (SEARLE), mappe les caractéristiques visuelles de l'image de référence dans un jeton pseudo-mot dans l'espace d'embedding de tokens CLIP et l'intègre à la légende relative. Pour soutenir la recherche sur le ZS-CIR, nous introduisons un ensemble de données de benchmarking en domaine ouvert nommé Composed Image Retrieval on Common Objects in context (CIRCO), qui est le premier ensemble de données pour le CIR contenant plusieurs vérités terrain pour chaque requête. Les expériences montrent que SEARLE présente de meilleures performances que les méthodes de base sur les deux principaux ensembles de données pour les tâches de CIR, FashionIQ et CIRR, ainsi que sur le CIRCO proposé. L'ensemble de données, le code et le modèle sont disponibles au public sur https://github.com/miccunifi/SEARLE.

Récupération d'images composées zéro-shot avec inversion textuelle | Articles de recherche récents | HyperAI