Segmentation par référence dans les images et les vidéos à l’aide d’un réseau d’attention cross-modale auto-attentionnelle

Nous abordons le problème de la segmentation référentielle dans les images et les vidéos à l’aide d’expressions naturelles. Étant donné une image (ou une vidéo) d’entrée et une expression référentielle, l’objectif consiste à segmenter l’entité mentionnée par l’expression au sein de l’image ou de la vidéo. Dans cet article, nous proposons un module d’attention croisée auto-attentive (CMSA) afin d’exploiter les détails fins des mots individuels ainsi que les informations de l’image ou de la vidéo d’entrée, permettant ainsi de capturer efficacement les dépendances à longue portée entre les caractéristiques linguistiques et visuelles. Notre modèle peut s’adapter pour se concentrer sur les mots les plus informatifs de l’expression référentielle ainsi que sur les régions visuelles les plus pertinentes. Nous introduisons également un module de fusion multi-niveaux à porte (GMLF) pour intégrer sélectivement les caractéristiques croisées auto-attentives correspondant à différents niveaux de représentation visuelle. Ce module contrôle la fusion des caractéristiques en fonction du flux d’information aux différents niveaux, en combinant des informations sémantiques de haut et de bas niveau liées à divers mots attentifs. En outre, nous proposons un module d’attention croisée entre trames (CFSA) afin d’intégrer efficacement les informations temporelles présentes dans des trames consécutives, étendant ainsi notre méthode au cas de la segmentation référentielle dans les vidéos. Des expériences menées sur quatre jeux de données standard pour la segmentation référentielle d’images et deux jeux de données pour la segmentation d’acteurs et d’actions dans les vidéos montrent de manière cohérente que notre approche dépasse les méthodes de pointe existantes.