Segmentation sémantique multimodale arbitraire

La fusion multimodale peut rendre la segmentation sémantique plus robuste. Cependant, la fusion d'un nombre arbitraire de modalités reste peu explorée. Pour approfondir ce problème, nous avons créé le benchmark de segmentation multimodale DeLiVER, couvrant la profondeur (Depth), le LiDAR, plusieurs vues (Views), les événements (Events) et l'RGB. En outre, nous fournissons ce jeu de données dans quatre conditions météorologiques sévères ainsi que cinq cas de défaillance des capteurs pour exploiter la complémentarité des modalités et résoudre les pannes partielles. Pour rendre cela possible, nous présentons le modèle de segmentation croisée multimodale CMNeXt. Il comprend un Hub d'Auto-Requête (Self-Query Hub ou SQ-Hub) conçu pour extraire des informations efficaces de toute modalité pour une fusion ultérieure avec la représentation RGB, en ajoutant seulement des quantités négligeables de paramètres (~0,01M) par modalité supplémentaire. De plus, pour récolter efficacement et flexiblement des indices discriminants à partir des modalités auxiliaires, nous introduisons le mélangeur simple de regroupement parallèle (Parallel Pooling Mixer ou PPX). Avec des expériences étendues sur un total de six benchmarks, notre CMNeXt atteint des performances d'état de l'art sur les jeux de données DeLiVER, KITTI-360, MFNet, NYU Depth V2, UrbanLF et MCubeS, permettant d'évoluer d'une à 81 modalités. Sur le DeLiVER fraîchement collecté, le CMNeXt quadrimodal atteint jusqu'à 66,30 % en mIoU avec une amélioration de +9,10 % par rapport au modèle monomodal de base. Le jeu de données DeLiVER et notre code sont disponibles à : https://jamycheung.github.io/DELIVER.html.