HyperAIHyperAI
il y a 3 mois

Détection robuste d'objets 3D multimodaux par décodage indépendant du mode et par ensemble de modalités basé sur la proximité

Juhan Cha, Minseok Joo, Jihwan Park, Sanghyeok Lee, Injae Kim, Hyunwoo J. Kim
Détection robuste d'objets 3D multimodaux par décodage indépendant du mode et par ensemble de modalités basé sur la proximité
Résumé

Les avancées récentes dans la détection d'objets 3D ont bénéficié de l'information multimodale provenant de caméras à plusieurs vues et de capteurs LiDAR. Toutefois, les différences intrinsèques entre ces modalités posent des défis considérables. Nous observons que les méthodes existantes de détection d'objets 3D multimodales s'appuient fortement sur le capteur LiDAR, considérant la caméra comme une modalité auxiliaire destinée à enrichir les détails sémantiques. Cela entraîne souvent une utilisation insuffisante des données caméra, ainsi qu'une dégradation significative des performances dans les scénarios où les données LiDAR sont indisponibles. En outre, les méthodes de fusion existantes négligent l'impact néfaste du bruit de capteur induit par les variations environnementales sur la performance de détection. Dans ce travail, nous proposons MEFormer pour surmonter le problème de surdépendance au LiDAR en exploitant l'information cruciale pour la détection d'objets 3D provenant de chaque modalité disponible, tout en protégeant efficacement contre les signaux corrompus lors du processus de fusion. Plus précisément, nous introduisons une décodification indépendante de la modalité (Modality Agnostic Decoding, MOAD), qui extrait des caractéristiques géométriques et sémantiques via un décodeur transformer partagé, indépendamment de la modalité d'entrée, offrant ainsi des améliorations prometteuses aussi bien avec une seule modalité qu'avec une fusion multimodale. Par ailleurs, notre module d'ensemble de modalités basé sur la proximité (Proximity-based Modality Ensemble, PME) utilise de manière adaptative les forces de chaque modalité en fonction de l'environnement tout en atténuant les effets d'un capteur bruyant. MEFormer atteint une performance de pointe de 73,9 % NDS et 71,5 % mAP sur l'ensemble de validation nuScenes. Des analyses étendues confirment que MEFormer améliore la robustesse face à des conditions difficiles telles que les pannes de capteurs ou les changements environnementaux. Le code source est disponible à l'adresse suivante : https://github.com/hanchaa/MEFormer