DVIS : Cadre de segmentation d'instances vidéo décorrélée

La segmentation d'instances vidéo (VIS) est une tâche cruciale avec des applications diverses, notamment la conduite autonome et l'édition vidéo. Les méthodes existantes sous-performent souvent sur des vidéos complexes et longues dans le monde réel, principalement en raison de deux facteurs. Premièrement, les méthodes hors ligne sont limitées par le paradigme de modélisation étroitement couplé, qui traite tous les cadres de manière égale et néglige les interdépendances entre les cadres adjacents. En conséquence, cela entraîne l'introduction d'un bruit excessif lors de l'alignement temporel à long terme. Deuxièmement, les méthodes en ligne souffrent d'une utilisation insuffisante des informations temporelles. Pour relever ces défis, nous proposons une stratégie de découplage pour la VIS en la divisant en trois sous-tâches indépendantes : segmentation, suivi et affinement. L'efficacité de cette stratégie de découplage repose sur deux éléments cruciaux : 1) l'obtention de résultats d'alignement à long terme précis grâce à l'association cadre par cadre pendant le suivi, et 2) l'utilisation efficace des informations temporelles basée sur ces résultats d'alignement précis lors de l'affinement. Nous introduisons un nouveau suiveur référentiel et un affinateur temporel pour construire le cadre \textbf{D}écouplé \textbf{VIS} (\textbf{DVIS}). DVIS atteint de nouvelles performances SOTA (State Of The Art) tant en VIS qu'en VPS (Video Panoptic Segmentation), surpassant les méthodes SOTA actuelles de 7,3 AP (Average Precision) et 9,6 VPQ (Video Panoptic Quality) sur les jeux de données OVIS et VIPSeg, qui sont les benchmarks les plus difficiles et réalistes. De plus, grâce à la stratégie de découplage, le suiveur référentiel et l'affinateur temporel sont extrêmement légers (seulement 1,69\% des FLOPs du segmenteur), permettant une formation et une inférence efficaces sur une seule GPU avec 11 Go de mémoire. Le code est disponible à \href{https://github.com/zhang-tao-whu/DVIS}{https://github.com/zhang-tao-whu/DVIS}.