HyperAIHyperAI
il y a 11 jours

M3DeTR : Détection d'objets 3D à représentations multiples, échelles multiples et relations mutuelles basée sur les Transformers

Tianrui Guan, Jun Wang, Shiyi Lan, Rohan Chandra, Zuxuan Wu, Larry Davis, Dinesh Manocha
M3DeTR : Détection d'objets 3D à représentations multiples, échelles multiples et relations mutuelles basée sur les Transformers
Résumé

Nous présentons une nouvelle architecture pour la détection d'objets 3D, appelée M3DeTR, qui combine différentes représentations de nuages de points (brutes, voxels, vue de dessus) avec différentes échelles de caractéristiques basées sur des pyramides de caractéristiques multi-échelles. M3DeTR est la première approche à unifier simultanément plusieurs représentations de nuages de points, plusieurs échelles de caractéristiques, ainsi que la modélisation des relations mutuelles entre les nuages de points, grâce à l'utilisation de transformateurs. Nous menons des expériences d'ablation approfondies qui mettent en évidence les bénéfices de la fusion des représentations et des échelles, ainsi que de la modélisation des relations. Notre méthode atteint des performances de pointe sur le jeu de données KITTI pour la détection d'objets 3D et sur le dataset ouvert Waymo. Les résultats montrent que M3DeTR améliore significativement la performance de base de 1,48 % en mAP pour toutes les classes sur le dataset Waymo Open. En particulier, notre approche obtient la première place sur le célèbre benchmark KITTI pour la détection d'objets 3D, tant pour les classes de voitures que de cyclistes, et se classe également en tête sur le dataset Waymo Open avec une entrée de nuage de points à cadre unique. Le code source est disponible à l'adresse suivante : https://github.com/rayguan97/M3DETR.