HyperAIHyperAI
il y a 16 jours

Alignement des relations d'apprentissage pour une récupération cross-modale calibrée

Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang
Alignement des relations d'apprentissage pour une récupération cross-modale calibrée
Résumé

Malgré les progrès réalisés par les approches de pré-entraînement multimodales à grande échelle, la recherche intermodale, par exemple la recherche image-texte, demeure une tâche complexe. Afin de réduire l’écart sémantique entre les deux modalités, les études antérieures se sont principalement concentrées sur l’alignement mot-région au niveau des objets, tout en négligeant la correspondance entre les relations linguistiques entre les mots et les relations visuelles entre les régions. Le manque de prise en compte de cette cohérence relationnelle nuit à la représentation contextualisée des paires image-texte et entrave à la fois les performances du modèle et son interprétabilité. Dans cet article, nous proposons tout d’abord une nouvelle métrique, appelée Distance d’auto-attention intra-modale (ISD), afin de quantifier la cohérence relationnelle en mesurant la distance sémantique entre les relations linguistiques et les relations visuelles. En réponse, nous introduisons une méthode d’entraînement régularisée, nommée Alignement intermodale sur les auto-attention intra-modales (IAIS), qui vise à optimiser l’ISD et à calibrer mutuellement les auto-attention intra-modales des deux modalités grâce à un alignement intermodale. Le régularisateur IAIS améliore significativement les performances des modèles actuels sur les jeux de données Flickr30k et MS COCO, démontrant ainsi l’efficacité de notre approche.

Alignement des relations d'apprentissage pour une récupération cross-modale calibrée | Articles de recherche récents | HyperAI