Segmentation sémantique vidéo avec correction de caractéristiques consciente des distorsions

La segmentation sémantique vidéo est devenue un domaine actif ces dernières années, grâce aux progrès importants réalisés dans la segmentation sémantique d’images. Pour cette tâche, une segmentation par image individuelle (par trame) est généralement inacceptable en pratique en raison de son coût computationnel élevé. Afin de résoudre ce problème, de nombreuses méthodes exploitent la propagation de caractéristiques basée sur le flux optique afin de réutiliser les caractéristiques des trames précédentes. Toutefois, l’estimation du flux optique souffre inévitablement d’imprécisions, ce qui entraîne une déformation des caractéristiques propagées. Dans cet article, nous proposons une correction de caractéristiques consciente des distorsions, visant à atténuer ce problème en corrigeant les caractéristiques propagées déformées, ce qui améliore ainsi les performances de la segmentation vidéo. Plus précisément, nous introduisons d’abord une méthode pour transférer les motifs de distorsion des espaces de caractéristiques vers l’espace d’image, permettant ainsi une prédiction efficace de cartes de distorsion. Grâce à la guidance fournie par ces cartes, nous proposons un module de correction de caractéristiques (Feature Correction Module, FCM) pour rectifier les caractéristiques propagées dans les zones déformées. Notre méthode permet d’améliorer significativement la précision de la segmentation sémantique vidéo à un coût faible. Les résultats expérimentaux étendus sur les jeux de données Cityscapes et CamVid démontrent que notre approche surpasser les méthodes les plus récentes de l’état de l’art.