HyperAIHyperAI

Command Palette

Search for a command to run...

MVX-Net : Multimodal VoxelNet pour la détection d'objets en 3D

Vishwanath A. Sindagi Yin Zhou Oncel Tuzel

Résumé

De nombreux travaux récents sur la détection d'objets en 3D se sont concentrés sur la conception d'architectures de réseaux neuronaux capables de traiter des données de nuages de points. Bien que ces approches montrent des performances encourageantes, elles sont généralement basées sur une seule modalité et ne peuvent pas tirer parti des informations provenant d'autres modalités, comme une caméra. Bien qu'une poignée de méthodes fusionnent les données de différentes modalités, celles-ci utilisent soit un pipeline complexe pour traiter les modalités séquentiellement, soit une fusion tardive et ne parviennent pas à apprendre l'interaction entre les différentes modalités aux premiers stades. Dans ce travail, nous présentons PointFusion et VoxelFusion : deux approches simples mais efficaces de fusion précoce pour combiner les modalités RGB et nuage de points, en exploitant l'architecture VoxelNet récemment introduite. L'évaluation sur le jeu de données KITTI montre des améliorations significatives des performances par rapport aux approches n'utilisant que des données de nuages de points. De plus, la méthode proposée fournit des résultats compétitifs avec les algorithmes multimodaux les plus avancés, obtenant le deuxième rang dans cinq des six catégories de détection en vue du dessus (bird's eye view) et en 3D sur le benchmark KITTI, en utilisant un réseau simple à une seule étape.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp