Tube-Link : Un Cadre de Liaison Inter-Tubes Flexible pour la Segmentation Universelle des Vidéos

La segmentation vidéo vise à segmenter et à suivre chaque pixel dans divers scénarios avec précision. Dans cet article, nous présentons Tube-Link, un cadre polyvalent qui aborde plusieurs tâches centrales de la segmentation vidéo grâce à une architecture unifiée. Notre cadre est une approche quasi-en ligne qui prend en entrée un sous-segment court et produit les masques spatiaux-temporels correspondants. Pour améliorer la modélisation des relations inter-tubes, nous proposons une méthode efficace pour effectuer le lien au niveau des tubes via l'attention le long des requêtes. De plus, nous introduisons l'apprentissage par contraste temporel pour des caractéristiques discriminantes au niveau des instances, facilitant ainsi l'association au niveau des tubes. Notre approche offre flexibilité et efficacité pour les entrées vidéo courtes et longues, car la durée de chaque sous-segment peut être ajustée en fonction des besoins des jeux de données ou des scénarios. Tube-Link surpasse les architectures spécialisées existantes avec une marge significative sur cinq jeux de données de segmentation vidéo. Plus précisément, il réalise presque 13 % d'améliorations relatives sur VIPSeg et 4 % d'améliorations sur KITTI-STEP par rapport à la ligne de base robuste Video K-Net. Lorsqu'un squelette ResNet50 est utilisé sur Youtube-VIS-2019 et 2021, Tube-Link améliore IDOL respectivement de 3 % et 4 %.