HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation sémantique vidéo multispectrale : Un jeu de données de référence et une solution de base

Li Cheng Alan L. Yuille Jiaying Zhao Zongwei Zhou Cheng Bian Jingjing Li Wei Ji

Résumé

La segmentation sémantique robuste et fiable dans des scènes complexes est essentielle pour de nombreuses applications réelles, telles que la conduite autonome sécurisée ou les opérations de secours nocturnes. Dans la plupart des approches, l’entrée utilisée est typiquement constituée d’images RGB. Toutefois, ces méthodes fonctionnent correctement uniquement dans des conditions météorologiques favorables ; en présence de conditions défavorables telles que la pluie, l’éblouissement ou l’éclairage faible, elles échouent souvent à produire des résultats satisfaisants. Cela a conduit à une recherche récente sur la segmentation sémantique multispectrale, où les images RGB et infrarouges thermiques (RGBT) sont utilisées conjointement comme entrée. Cette approche permet une segmentation bien plus robuste des objets d’image dans des scènes complexes et sous des conditions adverses. Néanmoins, la focalisation actuelle sur une seule image RGBT limite les méthodes existantes dans leur capacité à traiter efficacement les scènes dynamiques du monde réel. Motivés par ces observations, nous nous proposons dans cet article d’aborder une tâche relativement nouvelle : la segmentation sémantique de vidéos multispectrales, que nous désignons sous le nom de Multispectral Video Semantic Segmentation (MVSS, en abrégé). Un nouveau jeu de données, intitulé MVSeg, a ainsi été conçu in-house, comprenant 738 vidéos synchronisées en RGB et infrarouge thermique, accompagnées de 3 545 annotations pixel-par-pixel fines réparties sur 26 catégories. Ce jeu de données couvre une large variété de scènes urbaines exigeantes, tant en journée qu’en nuit. En outre, nous proposons une base efficace pour la MVSS, nommée MVNet, qui, à notre connaissance, constitue le premier modèle à apprendre conjointement des représentations sémantiques à partir de contextes multispectraux et temporels. Des expériences approfondies ont été menées en utilisant divers modèles de segmentation sémantique sur le jeu de données MVSeg. De manière empirique, il est démontré que l’incorporation d’entrées vidéo multispectrales conduit à une amélioration significative de la segmentation sémantique, et que l’efficacité de notre modèle MVNet a été validée.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp