Segmentation Sémantique Vidéo par Propagation de Flux à Portes Récurrentes

La segmentation sémantique vidéo est un défi en raison de la quantité massive de données qui doivent être traitées et étiquetées pour construire des modèles précis. Dans cet article, nous présentons une méthodologie profonde et entièrement entraînable pour la segmentation vidéo, capable d'exploiter les informations présentes dans les données non étiquetées afin d'améliorer les estimations sémantiques. Notre modèle combine une architecture convolutive et une couche récurrente transformateur spatio-temporelle qui peuvent propager l'information d'étiquetage temporellement grâce au flux optique, régulée de manière adaptative en fonction de son incertitude localement estimée. Le flux, le module de reconnaissance et le module de propagation temporelle contrôlé par une porte peuvent être entraînés conjointement, de bout en bout. La composante de propagation récurrente temporelle contrôlée par une porte de notre modèle peut être intégrée à n'importe quelle architecture de segmentation sémantique statique et la transformer en un système de traitement vidéo faiblement supervisé. Nos expériences approfondies sur les jeux de données difficiles CityScapes et CamVid, basées sur plusieurs architectures profondes, montrent que le modèle résultant peut tirer parti des images temporales non étiquetées, en complément d'une image étiquetée, pour améliorer à la fois la précision de la segmentation vidéo et la cohérence de son étiquetage temporel, sans coût supplémentaire d'annotation et avec peu de calcul supplémentaire.