HyperAIHyperAI
il y a 2 mois

CMX : Fusion Multimodale pour la Segmentation Sémantique RGB-X avec des Transformers

Zhang, Jiaming ; Liu, Huayao ; Yang, Kailun ; Hu, Xinxin ; Liu, Ruiping ; Stiefelhagen, Rainer
CMX : Fusion Multimodale pour la Segmentation Sémantique RGB-X avec des Transformers
Résumé

La compréhension de la scène basée sur le segmentionnement d'images est un élément crucial des véhicules autonomes. Le segmentionnement sémantique pixel par pixel des images RGB peut être amélioré en exploitant les caractéristiques complémentaires provenant d'une modalité supplémentaire (X-modalité). Cependant, couvrir une grande variété de capteurs avec un modèle indifférent à la modalité reste un problème non résolu en raison des variations des caractéristiques des capteurs entre différentes modalités. Contrairement aux méthodes précédentes spécifiques à une modalité, dans ce travail, nous proposons un cadre de fusion unifié, CMX, pour le segmentionnement sémantique RGB-X. Pour généraliser efficacement entre différentes modalités, qui incluent souvent des compléments ainsi que des incertitudes, une interaction croisée unifiée est essentielle pour la fusion modale. Plus précisément, nous concevons un module de rectification des caractéristiques croisées (Cross-Modal Feature Rectification Module - CM-FRM) afin de calibrer les caractéristiques bimodales en utilisant les caractéristiques d'une modalité pour corriger celles de l'autre modalité. Avec des paires de caractéristiques rectifiées, nous déployons un module de fusion des caractéristiques (Feature Fusion Module - FFM) pour effectuer un échange suffisant des contextes à longue portée avant le mélange. Pour vérifier CMX, pour la première fois, nous unifions cinq modalités complémentaires aux images RGB : profondeur, thermique, polarisation, événement et LiDAR. De nombreuses expériences montrent que CMX se généralise bien à diverses fusions multimodales, atteignant des performances de pointe sur cinq benchmarks RGB-Profondeur ainsi que sur les jeux de données RGB-Thermique, RGB-Polarisation et RGB-LiDAR. En outre, pour étudier la généralisabilité à la fusion de données denses et éparse, nous avons établi un benchmark de segmentionnement sémantique RGB-Événement basé sur le jeu de données EventScape, sur lequel CMX établit le nouveau standard de pointe. Le code source de CMX est disponible au public sur https://github.com/huaaaliu/RGBX_Semantic_Segmentation.