HyperAIHyperAI
il y a 2 mois

MVX-Net : Multimodal VoxelNet pour la détection d'objets en 3D

Vishwanath A. Sindagi; Yin Zhou; Oncel Tuzel
MVX-Net : Multimodal VoxelNet pour la détection d'objets en 3D
Résumé

De nombreux travaux récents sur la détection d'objets en 3D se sont concentrés sur la conception d'architectures de réseaux neuronaux capables de traiter des données de nuages de points. Bien que ces approches montrent des performances encourageantes, elles sont généralement basées sur une seule modalité et ne peuvent pas tirer parti des informations provenant d'autres modalités, comme une caméra. Bien qu'une poignée de méthodes fusionnent les données de différentes modalités, celles-ci utilisent soit un pipeline complexe pour traiter les modalités séquentiellement, soit une fusion tardive et ne parviennent pas à apprendre l'interaction entre les différentes modalités aux premiers stades. Dans ce travail, nous présentons PointFusion et VoxelFusion : deux approches simples mais efficaces de fusion précoce pour combiner les modalités RGB et nuage de points, en exploitant l'architecture VoxelNet récemment introduite. L'évaluation sur le jeu de données KITTI montre des améliorations significatives des performances par rapport aux approches n'utilisant que des données de nuages de points. De plus, la méthode proposée fournit des résultats compétitifs avec les algorithmes multimodaux les plus avancés, obtenant le deuxième rang dans cinq des six catégories de détection en vue du dessus (bird's eye view) et en 3D sur le benchmark KITTI, en utilisant un réseau simple à une seule étape.

MVX-Net : Multimodal VoxelNet pour la détection d'objets en 3D | Articles de recherche récents | HyperAI