HyperAIHyperAI

Command Palette

Search for a command to run...

CAMP : Passage adaptatif de messages multi-modaux pour la recherche textuelle-image

Zihao Wang Xihui Liu Hongsheng Li Lu Sheng Junjie Yan Xiaogang Wang Jing Shao

Résumé

La recherche croisée multimodale image-texte constitue une tâche difficile dans le domaine du langage et de la vision. La plupart des approches antérieures placent indépendamment les images et les phrases dans un espace d’embedding commun, puis comparent leurs similarités. Toutefois, ces méthodes explorent rarement les interactions entre images et phrases avant le calcul des similarités dans cet espace commun. Intuitivement, lors de la correspondance entre images et phrases, les êtres humains alternent leur attention entre des régions d’image et des mots de phrase, en sélectionnant les informations les plus saillantes tout en tenant compte des interactions entre les deux modalités. Dans cet article, nous proposons CAMP (Cross-modal Adaptive Message Passing), une méthode qui contrôle de manière adaptative le flux d’information lors du passage d’informations entre modalités. Notre approche prend en compte non seulement les interactions croisées détaillées et complètes entre modalités, mais traite également de manière appropriée les paires négatives et les informations sans pertinence grâce à un mécanisme d’ouverture adaptatif. En outre, au lieu d’adopter les approches classiques d’embedding conjoint pour la correspondance image-texte, nous estimons la note de correspondance à partir des caractéristiques fusionnées, et proposons une perte binaire de cross-entropie sur les paires négatives les plus difficiles pour l’entraînement. Les résultats obtenus sur les jeux de données COCO et Flickr30k surpassent significativement les méthodes de pointe, démontrant ainsi l’efficacité de notre approche.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp