Récupération d'Images sur des Images Réelles avec des Modèles Pré-entraînés Vision-et-Langage

Nous étendons la tâche de recherche d'images composées, où une requête d'entrée est constituée d'une image et d'une brève description textuelle de la manière dont l'image doit être modifiée. Les méthodes existantes n'ont été appliquées qu'à des images non complexes dans des domaines restreints, comme les produits de mode, ce qui limite l'étendue des études sur le raisonnement visuel approfondi dans des contextes riches en images et en langage. Pour remédier à ce problème, nous avons collecté le jeu de données Compose Image Retrieval on Real-life images (CIRR), qui comprend plus de 36 000 paires d'images ouvertes et multidomaines générées par la foule, accompagnées de textes modificateurs produits par des humains. Afin d'étendre les méthodes actuelles au domaine ouvert, nous proposons CIRPLANT, un modèle basé sur les transformateurs qui exploite une connaissance pré-entraînée riche en vision et en langage (V&L) pour modifier les caractéristiques visuelles conditionnées par le langage naturel. La recherche se fait ensuite par recherche du plus proche voisin sur les caractéristiques modifiées. Nous démontrons que, avec une architecture relativement simple, CIRPLANT surpassse les méthodes existantes sur des images du domaine ouvert tout en atteignant une précision comparable à l'état de l'art sur les jeux de données existants restreints, tels que ceux consacrés à la mode. Avec la publication de CIRR, nous croyons que ce travail inspirera des recherches supplémentaires sur la recherche d'images composées.