STEm-Seg : Embeddings Spatio-temporels pour la Segmentation d'Instances dans les Vidéos

Les méthodes existantes pour la segmentation d'instances dans les vidéos reposent généralement sur des pipelines à plusieurs étapes suivant le paradigme du suivi par détection, en modélisant une séquence vidéo comme une suite d'images individuelles. Plusieurs réseaux sont utilisés pour détecter les objets dans chaque trame, puis associer ces détections au fil du temps. Par conséquent, ces approches sont souvent non entraînables de manière end-to-end et fortement spécialisées pour des tâches spécifiques. Dans cet article, nous proposons une approche différente, particulièrement adaptée à une variété de tâches impliquant la segmentation d'instances dans les vidéos. Plus précisément, nous modélisons une séquence vidéo comme un unique volume spatio-temporel 3D, et introduisons une nouvelle méthode permettant de segmenter et de suivre les instances dans l'espace et le temps en une seule étape. Notre formulation repose sur la notion d'embeddings spatio-temporels, qui sont entraînés à regrouper les pixels appartenant à une même instance d'objet sur l'ensemble d'une séquence vidéo. À cet effet, nous introduisons (i) de nouvelles fonctions de mélange améliorant la représentation des embeddings spatio-temporels, et (ii) un réseau à une seule étape, sans proposition (proposal-free), capable de raisonner sur le contexte temporel. Notre réseau est entraîné de manière end-to-end pour apprendre les embeddings spatio-temporels ainsi que les paramètres nécessaires au regroupement de ces embeddings, simplifiant ainsi l'inférence. Notre méthode atteint des résultats de pointe sur plusieurs jeux de données et tâches. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/sabarim/STEm-Seg.