MeViS : Un grand benchmark pour la segmentation vidéo avec expressions de mouvement

Ce travail vise à réaliser une segmentation vidéo guidée par des expressions de mouvement, qui se concentre sur la segmentation d'objets dans le contenu vidéo en fonction d'une phrase décrivant le mouvement de ces objets. Les jeux de données existants sur les objets référencés dans les vidéos se concentrent généralement sur des objets saillants et utilisent des expressions linguistiques contenant des attributs statiques excessifs, ce qui pourrait permettre d'identifier l'objet cible dans une seule image. Ces jeux de données minimisent l'importance du mouvement dans le contenu vidéo pour la segmentation d'objets guidée par le langage. Pour étudier la faisabilité de l'utilisation d'expressions de mouvement pour ancrer et segmenter des objets dans les vidéos, nous proposons un jeu de données à grande échelle appelé MeViS, qui contient de nombreuses expressions de mouvement indiquant les objets cibles dans des environnements complexes. Nous avons évalué 5 méthodes existantes de segmentation d'objets référencés dans les vidéos (RVOS) et mené une comparaison exhaustive sur le jeu de données MeViS. Les résultats montrent que les méthodes actuelles de RVOS ne peuvent pas traiter efficacement la segmentation vidéo guidée par des expressions de mouvement. Nous analysons ensuite les défis rencontrés et proposons une approche de base pour le jeu de données MeViS proposé. L'objectif de notre évaluation est de fournir une plateforme permettant le développement d'algorithmes efficaces de segmentation vidéo guidée par le langage, qui exploitent les expressions de mouvement comme indication principale pour la segmentation d'objets dans des scènes vidéo complexes. Le jeu de données MeViS proposé est disponible à l'adresse https://henghuiding.github.io/MeViS.