Transformateur sensible au contexte local-global pour la segmentation vidéo guidée par le langage

Nous explorons la tâche de segmentation vidéo guidée par le langage (LVS). Les algorithmes précédents s'appuient principalement sur des réseaux de neurones convolutifs 3D (3D CNN) pour apprendre une représentation vidéo, mais peinent à capturer le contexte à long terme et sont sujets à des désalignements entre le visuel et le linguistique. À cet égard, nous proposons Locater (Transformer sensible au contexte local-global), une architecture améliorée du Transformer munie d'une mémoire finie, permettant d'interroger l'ensemble de la vidéo de manière efficace à l'aide d'une expression linguistique. Cette mémoire est conçue avec deux composants : l'un pour conserver de manière persistante le contenu global de la vidéo, et l'autre pour rassembler dynamiquement le contexte temporel local ainsi que l'historique de segmentation. Grâce au contexte local-global mémorisé et au contenu spécifique de chaque trame, Locater comprend de manière holistique et flexible l'expression linguistique, en générant pour chaque trame un vecteur de requête adaptatif. Ce vecteur est ensuite utilisé pour interroger la trame correspondante afin de produire le masque de segmentation. La mémoire permet également à Locater de traiter les vidéos avec une complexité temporelle linéaire et une taille mémoire constante, contrairement au calcul d'attention auto-attention de type Transformer, qui croît quadratiquement avec la longueur de la séquence. Pour évaluer de manière approfondie la capacité de localisation visuelle des modèles LVS, nous introduisons un nouveau jeu de données LVS, A2D-S+, construit à partir du jeu de données A2D-S mais posant des défis accrue dans la discrimination entre objets similaires. Des expériences menées sur trois jeux de données LVS, ainsi que sur notre A2D-S+, montrent que Locater surpasser les états de l'art précédents. En outre, nous avons remporté la première place dans la piste de segmentation d'objets vidéo référentiels de la 3e édition du Défi de segmentation d'objets vidéo à grande échelle, où Locater a servi de fondement à la solution gagnante. Notre code et le jeu de données sont disponibles à l'adresse suivante : https://github.com/leonnnop/Locater