NOVIS : Un Cas pour le Segmentation d'Instances Vidéo Presque en Ligne de la Tête aux Pieds

Jusqu'à récemment, la communauté de la Segmentation d'Instances Vidéo (VIS) partageait l'idée généralement admise que les méthodes hors ligne étaient supérieures aux traitements en ligne image par image. Cependant, le succès récent des méthodes en ligne remet en question cette croyance, en particulier pour les séquences vidéo longues et difficiles. Nous considérons ce travail comme une réfutation de ces observations récentes et un appel à la communauté à se concentrer sur des approches VIS quasi-en ligne dédiées. Pour étayer notre argumentation, nous présentons une analyse détaillée des différents paradigmes de traitement ainsi que la nouvelle méthode NOVIS (Near-Online Video Instance Segmentation) entièrement entraînable de bout en bout. Notre modèle basé sur les transformateurs prédit directement des volumes de masques spatio-temporels pour des clips d'images et effectue le suivi d'instances entre les clips grâce à des plongements de chevauchement. NOVIS représente la première approche VIS quasi-en ligne qui évite tout heuristique de suivi conçu manuellement. Nous surpassons tous les méthodes VIS existantes avec de larges marges et fournissons de nouveaux résultats de pointe sur les benchmarks YouTube-VIS (2019/2021) et OVIS.