Segmentation d'instances vidéo contextuelle

Dans cet article, nous présentons le Context-Aware Video Instance Segmentation (CAVIS), un cadre novateur conçu pour améliorer l'association d'instances en intégrant les informations contextuelles adjacentes à chaque objet. Pour extraire et exploiter efficacement ces informations, nous proposons le Context-Aware Instance Tracker (CAIT), qui combine les données contextuelles entourant les instances avec les caractéristiques principales des instances afin d'améliorer la précision du suivi. De plus, nous introduisons la perte Prototypical Cross-frame Contrastive (PCC), qui garantit la cohérence des caractéristiques au niveau de l'objet entre les différentes images, ce qui améliore considérablement la précision de l'appariement d'instances. CAVIS montre une performance supérieure aux méthodes de pointe sur tous les jeux de données de référence en segmentation d'instances vidéo (VIS) et en segmentation panoptique vidéo (VPS). Notamment, notre méthode se distingue sur le jeu de données OVIS, connu pour ses vidéos particulièrement complexes.