Segmentation Sémantique Vidéo à Faible Latence

Ces dernières années ont vu des progrès remarquables dans le domaine de la segmentation sémantique. Néanmoins, l'application de ces techniques à des applications basées sur la vidéo reste un défi important. Plus précisément, le débit élevé des flux vidéo, le coût considérable de l'exécution des réseaux entièrement convolutionnels, ainsi que les exigences de faible latence dans de nombreuses applications du monde réel, comme la conduite autonome, posent un défi significatif à la conception d'un cadre de segmentation vidéo. Pour relever ce défi combiné, nous avons développé un cadre pour la segmentation sémantique vidéo qui intègre deux composants novateurs : (1) un module de propagation des caractéristiques qui fusionne adaptativement les caractéristiques au fil du temps par convolution spatialement variable, réduisant ainsi le coût du calcul par image ; et (2) un planificateur adaptatif qui alloue dynamiquement le calcul en fonction de la prédiction de précision. Ces deux composants travaillent ensemble pour garantir une faible latence tout en maintenant une haute qualité de segmentation. Sur les jeux de données Cityscapes et CamVid, le cadre proposé a obtenu des performances compétitives comparées à l'état de l'art tout en réduisant substantiellement la latence, passant de 360 ms à 119 ms.