HyperAIHyperAI
il y a 4 mois

Convolution Sparse Virtuelle pour la Détection d'Objets 3D Multimodale

Wu, Hai ; Wen, Chenglu ; Shi, Shaoshuai ; Li, Xin ; Wang, Cheng
Convolution Sparse Virtuelle pour la Détection d'Objets 3D Multimodale
Résumé

Récemment, la détection d'objets 3D basée sur des points virtuels/pseudo-points, qui fusionne de manière fluide les images RGB et les données LiDAR par complétion de profondeur, a suscité beaucoup d'intérêt. Cependant, les points virtuels générés à partir d'une image sont très denses, introduisant une quantité importante de calculs redondants lors de la détection. Par ailleurs, le bruit généré par une complétion de profondeur imprecise diminue considérablement la précision de la détection. Cet article propose un backbone rapide mais efficace, nommé VirConvNet, basé sur un nouvel opérateur appelé VirConv (Virtual Sparse Convolution), pour la détection d'objets 3D basée sur des points virtuels. VirConv comprend deux conceptions clés : (1) StVD (Stochastic Voxel Discard) et (2) NRConv (Noise-Resistant Submanifold Convolution). StVD atténue le problème de calcul en éliminant de grandes quantités de voxels redondants proches. NRConv aborde le problème du bruit en codant les caractéristiques des voxels dans les espaces 2D image et 3D LiDAR. En intégrant VirConv, nous développons d'abord un pipeline efficace nommé VirConv-L basé sur une conception de fusion précoce. Ensuite, nous construisons un pipeline haute-précision nommé VirConv-T basé sur un schéma de raffinement transformé. Enfin, nous élaborons un pipeline semi-supervisé nommé VirConv-S basé sur un cadre de pseudo-étiquettes. Sur le tableau des meilleurs résultats du test de détection 3D des voitures KITTI, notre VirConv-L atteint une précision moyenne (AP) de 85% avec une vitesse d'exécution rapide de 56 ms. Notre VirConv-T et VirConv-S obtiennent respectivement une précision élevée de 86,3% et 87,2% AP et se classent actuellement deuxième et premier. Le code est disponible à l'adresse suivante : https://github.com/hailanyi/VirConv.