HyperAIHyperAI

Command Palette

Search for a command to run...

Les prompts au niveau des phrases améliorent la recherche d'images composées.

Yang Bai¹ Xinxing Xu¹ Yong Liu¹ Salman Khan²,³ Fahad Khan² Wangmeng Zuo⁴ Rick Siow Mong Goh¹ Chun-Mei Feng¹∗

Résumé

La recherche d'images composées (CIR) est la tâche de récupérer des images spécifiques en utilisant une requête qui implique à la fois une image de référence et une légende relative. La plupart des modèles CIR existants adoptent la stratégie de fusion tardive pour combiner les caractéristiques visuelles et linguistiques. De plus, plusieurs approches ont également été proposées pour générer un jeton de mot fictif à partir de l'image de référence, qui est ensuite intégré dans la légende relative pour la CIR. Cependant, ces méthodes basées sur des mots fictifs présentent des limites lorsque l'image cible comprend des modifications complexes par rapport à l'image de référence, par exemple, la suppression d'objets et la modification d'attributs. Dans ce travail, nous démontrons que l'apprentissage d'un prompt au niveau de la phrase approprié pour la légende relative (SPRC) suffit pour réaliser une recherche d'images composées efficace. Au lieu de s'appuyer sur des prompts basés sur des mots fictifs, nous proposons d'utiliser des modèles pré-entraînés V-L, comme BLIP-2, pour générer des prompts au niveau de la phrase. En concaténant le prompt appris au niveau de la phrase avec la légende relative, il est possible d'utiliser directement les modèles existants de recherche d'images basée sur le texte pour améliorer les performances de CIR. De plus, nous introduisons à la fois une perte contrastive image-texte et une perte d'alignement du prompt textuel pour renforcer l'apprentissage de prompts au niveau de la phrase adaptés. Les expériences montrent que notre méthode proposée se compare favorablement aux méthodes CIR les plus avancées sur les jeux de données Fashion-IQ et CIRR. Le code source et le modèle pré-entraîné sont disponibles publiquement à l'adresse https://github.com/chunmeifeng/SPRC


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Les prompts au niveau des phrases améliorent la recherche d'images composées. | Articles | HyperAI