HyperAIHyperAI
il y a 2 mois

Les prompts au niveau des phrases améliorent la recherche d'images composées.

Bai, Yang ; Xu, Xinxing ; Liu, Yong ; Khan, Salman ; Khan, Fahad ; Zuo, Wangmeng ; Goh, Rick Siow Mong ; Feng, Chun-Mei
Les prompts au niveau des phrases améliorent la recherche d'images composées.
Résumé

La recherche d'images composées (CIR) est la tâche de récupérer des images spécifiques en utilisant une requête qui implique à la fois une image de référence et une légende relative. La plupart des modèles CIR existants adoptent la stratégie de fusion tardive pour combiner les caractéristiques visuelles et linguistiques. De plus, plusieurs approches ont également été proposées pour générer un jeton de mot fictif à partir de l'image de référence, qui est ensuite intégré dans la légende relative pour la CIR. Cependant, ces méthodes basées sur des mots fictifs présentent des limites lorsque l'image cible comprend des modifications complexes par rapport à l'image de référence, par exemple, la suppression d'objets et la modification d'attributs. Dans ce travail, nous démontrons que l'apprentissage d'un prompt au niveau de la phrase approprié pour la légende relative (SPRC) suffit pour réaliser une recherche d'images composées efficace. Au lieu de s'appuyer sur des prompts basés sur des mots fictifs, nous proposons d'utiliser des modèles pré-entraînés V-L, comme BLIP-2, pour générer des prompts au niveau de la phrase. En concaténant le prompt appris au niveau de la phrase avec la légende relative, il est possible d'utiliser directement les modèles existants de recherche d'images basée sur le texte pour améliorer les performances de CIR. De plus, nous introduisons à la fois une perte contrastive image-texte et une perte d'alignement du prompt textuel pour renforcer l'apprentissage de prompts au niveau de la phrase adaptés. Les expériences montrent que notre méthode proposée se compare favorablement aux méthodes CIR les plus avancées sur les jeux de données Fashion-IQ et CIRR. Le code source et le modèle pré-entraîné sont disponibles publiquement à l'adresse https://github.com/chunmeifeng/SPRC

Les prompts au niveau des phrases améliorent la recherche d'images composées. | Articles de recherche récents | HyperAI