HyperAIHyperAI
il y a 2 mois

iSEARLE : Amélioration de l'inversion textuelle pour la recherche d'images composées sans supervision

Agnolucci, Lorenzo ; Baldrati, Alberto ; Bertini, Marco ; Del Bimbo, Alberto
iSEARLE : Amélioration de l'inversion textuelle pour la recherche d'images composées sans supervision
Résumé

Étant donné une requête composée d'une image de référence et d'une légende relative, la recherche d'images composites (CIR) vise à récupérer des images cibles visuellement similaires à l'image de référence tout en intégrant les modifications spécifiées dans la légende relative. L'utilisation intensive du travail manuel pour étiqueter des jeux de données par les méthodes supervisées entrave leur applicabilité généralisée. Dans ce travail, nous introduisons une nouvelle tâche, la recherche d'images composites sans supervision (ZS-CIR), qui aborde le CIR sans nécessiter un jeu de données d'entraînement étiqueté. Nous proposons une approche nommée iSEARLE (recherche d'images composites améliorée sans supervision avec inversion textuelle) qui consiste à mapper les informations visuelles de l'image de référence sous forme de jeton pseudo-mot dans l'espace d'embedding de tokens CLIP et à le combiner avec la légende relative. Pour favoriser la recherche sur ZS-CIR, nous présentons un ensemble de données de benchmark en domaine ouvert nommé CIRCO (recherche d'images composites sur des objets courants en contexte), le premier jeu de données CIR où chaque requête est étiquetée avec plusieurs vérités terrain et une catégorisation sémantique. Les résultats expérimentaux montrent que iSEARLE obtient des performances de pointe sur trois différents jeux de données CIR -- FashionIQ, CIRR et le proposé CIRCO -- ainsi que sur deux configurations supplémentaires d'évaluation, à savoir la conversion de domaine et la composition d'objets. Le jeu de données, le code et le modèle sont librement accessibles sur https://github.com/miccunifi/SEARLE.

iSEARLE : Amélioration de l'inversion textuelle pour la recherche d'images composées sans supervision | Articles de recherche récents | HyperAI