STC : Apprentissage contrastif spatio-temporel pour la segmentation d'instances vidéo

La segmentation d'instances vidéo (VIS) est une tâche qui exige simultanément la classification, la segmentation et l'association d'instances au sein d'une séquence vidéo. Les approches récentes de VIS reposent sur des pipelines complexes pour atteindre cet objectif, incluant des opérations liées aux régions d'intérêt (RoI) ou des convolutions 3D. En contraste, nous proposons un cadre simple et efficace en une seule étape pour la VIS, basé sur la méthode de segmentation d'instances CondInst, auquel nous ajoutons une tête supplémentaire de suivi. Pour améliorer la précision de l'association d'instances, nous introduisons une nouvelle stratégie de apprentissage contrastif spatio-temporel bidirectionnel pour les embeddings de suivi à travers les trames. Par ailleurs, nous utilisons un schéma de cohérence temporelle par instance afin de produire des résultats temporellement cohérents. Des expériences menées sur les jeux de données YouTube-VIS-2019, YouTube-VIS-2021 et OVIS-2021 valident l'efficacité et l'efficience de la méthode proposée. Nous espérons que ce cadre pourra servir de solution simple et performante pour de nombreuses autres tâches d'association d'instances dans les vidéos.