HyperAIHyperAI
il y a 2 mois

CAFuser : Fusion multimodale conditionnelle pour une perception sémantique robuste des scènes de conduite

Tim Broedermann; Christos Sakaridis; Yuqian Fu; Luc Van Gool
CAFuser : Fusion multimodale conditionnelle pour une perception sémantique robuste des scènes de conduite
Résumé

L'utilisation de plusieurs capteurs est cruciale pour une perception sémantique robuste dans le domaine de la conduite autonome, car chaque type de capteur présente des forces et des faiblesses complémentaires. Cependant, les méthodes actuelles de fusion de capteurs traitent souvent ces derniers uniformément dans toutes les conditions, ce qui entraîne des performances sous-optimales. En revanche, nous proposons une nouvelle approche de fusion multimodale adaptée aux conditions pour une perception sémantique robuste des scènes de conduite. Notre méthode, CAFuser, utilise une entrée d'une caméra RGB pour classifier les conditions environnementales et générer un Jeton de Condition (Condition Token) qui guide la fusion de plusieurs modalités de capteurs. Nous introduisons également des adapteurs spécifiques à chaque modalité pour aligner les entrées diverses des capteurs dans un espace latent partagé, permettant ainsi une intégration efficace avec un tronc commun pré-entraîné unique. En adaptant dynamiquement la fusion des capteurs en fonction des conditions réelles, notre modèle améliore considérablement la robustesse et la précision, en particulier dans les scénarios à conditions défavorables. CAFuser occupe la première place sur les benchmarks publics MUSES, atteignant 59,7 PQ pour la panoptique multimodale et 78,2 mIoU pour la segmentation sémantique, et établit également un nouveau niveau d'excellence sur DeLiVER. Le code source est disponible au public à l'adresse suivante : https://github.com/timbroed/CAFuser.

CAFuser : Fusion multimodale conditionnelle pour une perception sémantique robuste des scènes de conduite | Articles de recherche récents | HyperAI