il y a 17 jours

CAMP : Passage adaptatif de messages multi-modaux pour la recherche textuelle-image

Zihao Wang, Xihui Liu, Hongsheng Li, Lu Sheng, Junjie Yan, Xiaogang Wang, Jing Shao

Résumé

La recherche croisée multimodale image-texte constitue une tâche difficile dans le domaine du langage et de la vision. La plupart des approches antérieures placent indépendamment les images et les phrases dans un espace d’embedding commun, puis comparent leurs similarités. Toutefois, ces méthodes explorent rarement les interactions entre images et phrases avant le calcul des similarités dans cet espace commun. Intuitivement, lors de la correspondance entre images et phrases, les êtres humains alternent leur attention entre des régions d’image et des mots de phrase, en sélectionnant les informations les plus saillantes tout en tenant compte des interactions entre les deux modalités. Dans cet article, nous proposons CAMP (Cross-modal Adaptive Message Passing), une méthode qui contrôle de manière adaptative le flux d’information lors du passage d’informations entre modalités. Notre approche prend en compte non seulement les interactions croisées détaillées et complètes entre modalités, mais traite également de manière appropriée les paires négatives et les informations sans pertinence grâce à un mécanisme d’ouverture adaptatif. En outre, au lieu d’adopter les approches classiques d’embedding conjoint pour la correspondance image-texte, nous estimons la note de correspondance à partir des caractéristiques fusionnées, et proposons une perte binaire de cross-entropie sur les paires négatives les plus difficiles pour l’entraînement. Les résultats obtenus sur les jeux de données COCO et Flickr30k surpassent significativement les méthodes de pointe, démontrant ainsi l’efficacité de notre approche.