Command Palette
Search for a command to run...
RPVNet : Un réseau de fusion profond et efficace de plage-points-voxels pour la segmentation des nuages de points LiDAR
RPVNet : Un réseau de fusion profond et efficace de plage-points-voxels pour la segmentation des nuages de points LiDAR
Jianyun Xu Ruixiang Zhang Jian Dou Yushi Zhu Jie Sun Shiliang Pu
Résumé
Les nuages de points peuvent être représentés sous diverses formes (vues), notamment des ensembles basés sur les points, des cellules basées sur les voxels ou des images basées sur la portée (c'est-à-dire, une vue panoramique). La vue basée sur les points est géométriquement précise, mais elle est désordonnée, ce qui rend difficile l'identification efficace des voisins locaux. La vue basée sur les voxels est régulière, mais éparse, et le calcul augmente cubiquement lorsque la résolution des voxels s'améliore. La vue basée sur la portée est régulière et généralement dense, cependant, la projection sphérique entraîne une distorsion des dimensions physiques. Les vues basées sur les voxels et sur la portée souffrent toutes deux d'une perte de quantification, particulièrement pour les voxels lorsqu'ils sont confrontés à des scènes à grande échelle. Afin d'exploiter les avantages de différentes vues et d'atténuer leurs propres inconvénients dans la tâche de segmentation fine-grain, nous proposons un nouveau réseau de fusion range-point-voxel, appelé RPVNet. Dans ce réseau, nous avons conçu un cadre de fusion profonde avec plusieurs interactions mutuelles entre ces trois vues et proposé un module de fusion piloté par une porte (dénommé GFM), capable de fusionner adaptativement les trois caractéristiques en fonction des entrées simultanées. De plus, le mécanisme d'interaction RPV proposé est très efficace, et nous l'avons résumé dans une formulation plus générale. En tirant parti de cette interaction efficace et d'une résolution voxel relativement faible, notre méthode a également été prouvée plus performante. Enfin, nous avons évalué le modèle proposé sur deux grands ensembles de données, à savoir SemanticKITTI et nuScenes, où il affiche des performances au niveau de l'état de l'art dans les deux cas. Il convient de noter que notre méthode occupe actuellement la première place du classement SemanticKITTI sans recourir à aucune technique supplémentaire.