Réseau d'inférence de relation bidirectionnelle pour la segmentation d'image par référence

La plupart des méthodes existantes ne formulent pas explicitement l’interaction mutuelle entre la vision et le langage. Dans ce travail, nous proposons un réseau d’inférence de relation bidirectionnelle (BRINet) afin de modéliser les dépendances entre les informations multimodales. Plus précisément, l’attention linguistique guidée par la vision permet d’apprendre un contexte linguistique adaptatif correspondant à chaque région visuelle. En combinant cette attention visuelle guidée par le langage, nous construisons un module d’attention cross-modale bidirectionnelle (BCAM) pour capturer les relations entre les caractéristiques multimodales. Ainsi, le contexte sémantique final de l’objet cible et de l’expression de référence peut être représenté de manière précise et cohérente. En outre, un module de fusion bidirectionnelle à porte (GBFM) est conçu pour intégrer les caractéristiques de plusieurs niveaux, où une fonction de porte permet de guider le flux bidirectionnel des informations de différents niveaux. Des expériences étendues sur quatre jeux de données de référence démontrent que la méthode proposée surpasser les autres approches de pointe dans diverses métriques d’évaluation.