HyperAIHyperAI
il y a 2 mois

Réseau de Self-Attention Multimodal pour la Segmentation d'Images Référencées

Linwei Ye; Mrigank Rochan; Zhi Liu; Yang Wang
Réseau de Self-Attention Multimodal pour la Segmentation d'Images Référencées
Résumé

Nous abordons le problème de la segmentation d'images par référence. Étant donné une image d'entrée et une expression en langage naturel, l'objectif est de segmenter l'objet auquel fait référence l'expression dans l'image. Les travaux existants dans ce domaine traitent séparément l'expression en langage naturel et l'image d'entrée dans leurs représentations. Ils ne capturent pas suffisamment les corrélations à longue portée entre ces deux modalités. Dans cet article, nous proposons un module d'auto-attention intermodale (CMSA) qui capture efficacement les dépendances à longue portée entre les caractéristiques linguistiques et visuelles. Notre modèle peut se concentrer de manière adaptative sur les mots informatifs de l'expression de référence et sur les régions importantes de l'image d'entrée. De plus, nous proposons un module de fusion multiniveau avec porte pour intégrer sélectivement les caractéristiques intermodales auto-attentives correspondant à différents niveaux dans l'image. Ce module contrôle le flux d'information des caractéristiques à différents niveaux. Nous validons notre approche proposée sur quatre jeux de données d'évaluation. Notre approche proposée surpassent constamment les méthodes existantes de pointe.