HyperAIHyperAI
il y a 2 mois

Amélioration de la recherche d'images composites par apprentissage contrastif avec mise à l'échelle des positifs et des négatifs

Zhangchi Feng; Richong Zhang; Zhijie Nie
Amélioration de la recherche d'images composites par apprentissage contrastif avec mise à l'échelle des positifs et des négatifs
Résumé

La tâche de recherche d'images composées (CIR) vise à récupérer des images cibles à l'aide d'une requête composée d'une image de référence et d'un texte modifié. Les méthodes avancées utilisent souvent l'apprentissage par contraste comme objectif d'optimisation, ce qui bénéficie d'exemples positifs et négatifs adéquats. Cependant, la création de triplets pour le CIR entraîne des coûts élevés de notation manuelle, limitant ainsi le nombre d'exemples positifs. De plus, les méthodes existantes utilisent généralement un échantillonnage négatif intra-batch, ce qui réduit le nombre d'exemples négatifs disponibles pour le modèle. Pour résoudre le problème du manque d'exemples positifs, nous proposons une méthode de génération de données en exploitant un grand modèle linguistique multimodal pour construire des triplets pour le CIR. Pour introduire davantage d'exemples négatifs lors du fine-tuning, nous concevons un cadre de fine-tuning en deux étapes pour le CIR, dont la deuxième étape introduit de nombreuses représentations statiques négatives afin d'optimiser rapidement l'espace de représentation. Ces deux améliorations peuvent être empilées efficacement et conçues pour être plug-and-play, permettant une application facile aux modèles CIR existants sans modifier leurs architectures originales. Des expériences approfondies et une analyse ablationnelle montrent que notre méthode augmente efficacement les exemples positifs et négatifs et obtient des résultats de pointe sur les jeux de données FashionIQ et CIRR. En outre, notre méthode se distingue également dans la recherche d'images composées en zero-shot, offrant une nouvelle solution CIR pour les scénarios à faibles ressources. Notre code et nos données sont disponibles à l'adresse suivante : https://github.com/BUAADreamer/SPN4CIR.

Amélioration de la recherche d'images composites par apprentissage contrastif avec mise à l'échelle des positifs et des négatifs | Articles de recherche récents | HyperAI