MUSES : Le Jeu de Données de Perception Sémantique Multi-capteurs pour la Conduite dans l’Incertain

L'atteinte de l'automatisation de conduite de niveau 5 dans les véhicules autonomes nécessite un système de perception visuelle sémantique robuste capable d'analyser les données provenant de différents capteurs dans diverses conditions. Cependant, les ensembles de données existants pour la perception sémantique manquent souvent d'importantes modalités non caméra généralement utilisées dans les véhicules autonomes, ou ne parviennent pas à exploiter ces modalités pour aider et améliorer les annotations sémantiques dans des conditions difficiles. Pour remédier à cela, nous présentons MUSES, le jeu de données de perception sémantique multi-capteur (MUlti-SEnsor Semantic perception) pour la conduite dans des conditions défavorables sous une incertitude accrue. MUSES comprend des enregistrements multimodaux synchronisés avec des annotations panoramiques 2D pour 2500 images capturées dans diverses conditions météorologiques et d'éclairage. L'ensemble de données intègre une caméra à cadres, un lidar, un radar, une caméra événementielle et un capteur IMU/GNSS. Notre nouveau protocole d'annotation panoramique en deux étapes capture à la fois l'incertitude au niveau des classes et au niveau des instances dans la vérité terrain et permet la tâche innovante de segmentation panoramique prenant en compte l'incertitude que nous introduisons, ainsi que la segmentation sémantique et panoramique standard. MUSES se révèle efficace pour l'entraînement et difficile pour l'évaluation des modèles sous diverses conditions visuelles, ouvrant ainsi de nouvelles perspectives pour la recherche en perception sémantique dense multimodale et prenant en compte l'incertitude. Notre ensemble de données et notre benchmark sont disponibles au public sur https://muses.vision.ee.ethz.ch.