Encodage positionnel relatif polaire pour la segmentation vidéo-langage

Dans cet article, nous abordons une tâche exigeante appelée segmentation vidéo-langage. Étant donné une vidéo et une phrase écrite dans un langage naturel, l’objectif consiste à segmenter dans les cadres vidéo l’objet ou l’acteur décrit par la phrase. Pour dénoter précisément un objet cible, la phrase fournie fait généralement référence à plusieurs attributs, tels que des objets proches liés par des relations spatiales, par exemple. Dans cet article, nous proposons un mécanisme novateur appelé Encodage Positionnel Relatif Polaire (PRPE), qui représente les relations spatiales de manière « linguistique », c’est-à-dire en termes de direction et de portée. Les caractéristiques issues de la phrase peuvent interagir de manière plus directe avec les embeddings positionnels afin d’extraire les relations positionnelles relatives implicites. Nous proposons également des fonctions paramétriques pour ces embeddings positionnels, afin de s’adapter à des directions et des portées réelles (à valeurs réelles). Grâce au PRPE, nous concevons un module fondamental pour la fusion vision-langage appelé Module d’Attention Polaire (PAM). Notre méthode dépasse de manière significative la meilleure méthode précédente, avec une amélioration absolue de 11,4 % en termes de mAP sur le jeu de données exigeant A2D Sentences. Elle obtient également des performances compétitives sur le jeu de données J-HMDB Sentences.