HyperAIHyperAI
il y a 2 mois

Formation bidirectionnelle pour la recherche d'images composées via l'apprentissage de prompts textuels

Liu, Zheyuan ; Sun, Weixuan ; Hong, Yicong ; Teney, Damien ; Gould, Stephen
Formation bidirectionnelle pour la recherche d'images composées via l'apprentissage de prompts textuels
Résumé

La recherche d'images composées consiste à rechercher une image cible en fonction d'une requête multimodale de l'utilisateur, comprenant une image de référence et un texte de modification décrivant les changements souhaités. Les approches existantes pour résoudre cette tâche complexe apprennent une correspondance entre le couple (image de référence, texte de modification) et une empreinte d'image, qui est ensuite comparée à un grand corpus d'images. Un domaine qui n'a pas encore été exploré est la direction inverse, qui pose la question suivante : quelle image de référence, modifiée comme décrit par le texte, produirait l'image cible donnée ? Dans ce travail, nous proposons un schéma d'entraînement bidirectionnel qui utilise ces requêtes inverses et peut être appliqué aux architectures existantes de recherche d'images composées avec des modifications minimales, améliorant ainsi les performances du modèle. Pour encoder la requête bidirectionnelle, nous ajoutons un jeton apprenable au début du texte de modification afin de désigner la direction de la requête, puis nous affinons les paramètres du module d'empreinte textuelle. Nous ne faisons aucune autre modification à l'architecture du réseau. Des expériences menées sur deux jeux de données standards montrent que notre nouvelle approche atteint des performances améliorées par rapport à un modèle basé sur BLIP qui déjà obtient des performances compétitives. Notre code est disponible à l'adresse https://github.com/Cuberick-Orion/Bi-Blip4CIR.

Formation bidirectionnelle pour la recherche d'images composées via l'apprentissage de prompts textuels | Articles de recherche récents | HyperAI