Réseau d'attention croisée asymétrique guidée pour la segmentation vidéo d'acteur et d'action à partir d'une requête en langage naturel

La segmentation d’acteurs et d’actions dans des vidéos à partir d’une requête en langage naturel vise à segmenter sélectivement l’acteur et son action dans une vidéo en se basant sur une description textuelle d’entrée. Les travaux antérieurs se concentrent principalement sur l’apprentissage d’une corrélation simple entre deux types de caractéristiques hétérogènes — visuelles et linguistiques — via des convolutions dynamiques ou une classification entièrement convolutive. Toutefois, ces approches négligent les variations linguistiques présentes dans les requêtes en langage naturel et éprouvent des difficultés à modéliser le contexte visuel global, ce qui entraîne des performances de segmentation insatisfaisantes. Pour remédier à ces limites, nous proposons un réseau d’attention croisée asymétrique guidée par la cross-attention pour la segmentation d’acteurs et d’actions à partir de requêtes en langage naturel. Plus précisément, nous introduisons un réseau d’attention croisée asymétrique composé de deux modules : une attention langagière guidée par la vision, qui réduit les variations linguistiques de la requête d’entrée, et une attention visuelle guidée par le langage, qui intègre un contexte visuel global orienté vers la requête. En outre, nous adoptons un schéma de fusion multi-résolution ainsi qu’une fonction de perte pondérée pour les pixels d’avant-plan et de fond afin d’obtenir une amélioration supplémentaire des performances. Des expériences étendues sur les jeux de données Actor-Action Dataset Sentences et J-HMDB Sentences montrent que notre méthode propose une performance nettement supérieure aux approches les plus récentes de l’état de l’art.