Segmentation d'instances vidéo

Dans cet article, nous présentons une nouvelle tâche en vision par ordinateur nommée segmentation d'instances vidéo. L'objectif de cette nouvelle tâche est la détection, la segmentation et le suivi simultanés des instances dans les vidéos. Autrement dit, il s'agit de la première extension du problème de segmentation d'instances d'images au domaine vidéo. Pour faciliter la recherche sur cette nouvelle tâche, nous proposons un benchmark à grande échelle appelé YouTube-VIS, qui comprend 2883 vidéos YouTube en haute résolution, un ensemble de 40 catégories d'étiquettes et 131 000 masques d'instances de haute qualité. De plus, nous proposons un nouvel algorithme appelé MaskTrack R-CNN pour cette tâche. Notre nouvelle méthode introduit une nouvelle branche de suivi à Mask R-CNN afin d'exécuter conjointement les tâches de détection, de segmentation et de suivi simultanément. Enfin, nous évaluons la méthode proposée ainsi que plusieurs baselines solides sur notre nouveau jeu de données. Les résultats expérimentaux montrent clairement les avantages de l'algorithme proposé et révèlent des pistes pour des améliorations futures. Nous croyons que la tâche de segmentation d'instances vidéo stimulera la communauté dans le domaine de la compréhension vidéo.