Segmentation sémantique vidéo multispectrale : Un jeu de données de référence et une solution de base

La segmentation sémantique robuste et fiable dans des scènes complexes est essentielle pour de nombreuses applications réelles, telles que la conduite autonome sécurisée ou les opérations de secours nocturnes. Dans la plupart des approches, l’entrée utilisée est typiquement constituée d’images RGB. Toutefois, ces méthodes fonctionnent correctement uniquement dans des conditions météorologiques favorables ; en présence de conditions défavorables telles que la pluie, l’éblouissement ou l’éclairage faible, elles échouent souvent à produire des résultats satisfaisants. Cela a conduit à une recherche récente sur la segmentation sémantique multispectrale, où les images RGB et infrarouges thermiques (RGBT) sont utilisées conjointement comme entrée. Cette approche permet une segmentation bien plus robuste des objets d’image dans des scènes complexes et sous des conditions adverses. Néanmoins, la focalisation actuelle sur une seule image RGBT limite les méthodes existantes dans leur capacité à traiter efficacement les scènes dynamiques du monde réel. Motivés par ces observations, nous nous proposons dans cet article d’aborder une tâche relativement nouvelle : la segmentation sémantique de vidéos multispectrales, que nous désignons sous le nom de Multispectral Video Semantic Segmentation (MVSS, en abrégé). Un nouveau jeu de données, intitulé MVSeg, a ainsi été conçu in-house, comprenant 738 vidéos synchronisées en RGB et infrarouge thermique, accompagnées de 3 545 annotations pixel-par-pixel fines réparties sur 26 catégories. Ce jeu de données couvre une large variété de scènes urbaines exigeantes, tant en journée qu’en nuit. En outre, nous proposons une base efficace pour la MVSS, nommée MVNet, qui, à notre connaissance, constitue le premier modèle à apprendre conjointement des représentations sémantiques à partir de contextes multispectraux et temporels. Des expériences approfondies ont été menées en utilisant divers modèles de segmentation sémantique sur le jeu de données MVSeg. De manière empirique, il est démontré que l’incorporation d’entrées vidéo multispectrales conduit à une amélioration significative de la segmentation sémantique, et que l’efficacité de notre modèle MVNet a été validée.