Segmentation d'objets vidéo référentiels bout-en-bout avec des transformateurs multimodaux

La tâche de segmentation d'objets vidéo référencés par texte (RVOS) consiste à segmenter une instance d'objet mentionnée dans un texte au sein des cadres d'une vidéo donnée. En raison de la nature complexe de cette tâche multimodale, qui combine le raisonnement textuel, la compréhension vidéo, la segmentation d'instances et le suivi, les approches existantes reposent généralement sur des pipelines sophistiqués pour la traiter. Dans cet article, nous proposons une approche simple basée sur les Transformers pour la RVOS. Notre cadre, nommé Multimodal Tracking Transformer (MTTR), modélise la tâche RVOS comme un problème de prédiction de séquence. Inspiré des avancées récentes en vision par ordinateur et en traitement du langage naturel, MTTR repose sur l'idée que la vidéo et le texte peuvent être traités conjointement de manière efficace et élégante par un unique modèle Transformer multimodal. MTTR est entièrement entraînable en end-to-end, ne contient pas de composants biaisés par le texte, et ne nécessite aucune étape postérieure de raffinement de masque. Par conséquent, il simplifie considérablement le pipeline RVOS par rapport aux méthodes existantes. Les évaluations sur des benchmarks standards montrent que MTTR surpasse significativement les méthodes antérieures sur plusieurs métriques. En particulier, MTTR obtient des gains impressionnants de +5,7 et +5,0 en mAP respectivement sur les jeux de données A2D-Sentences et JHMDB-Sentences, tout en traitant 76 cadres par seconde. En outre, nous rapportons des résultats très prometteurs sur l'ensemble de validation public de Refer-YouTube-VOS, un jeu de données RVOS plus exigeant qui n'a encore reçu que peu d'attention de la part des chercheurs. Le code permettant de reproduire nos expériences est disponible à l'adresse suivante : https://github.com/mttr2021/MTTR