Meta-RangeSeg : Segmentaion sémantique de séquences LiDAR par agrégation multiple de caractéristiques

Le capteur LiDAR est essentiel au système de perception des véhicules autonomes et des robots intelligents. Afin de satisfaire les exigences en temps réel dans les applications du monde réel, il est nécessaire de segmenter efficacement les nuages de points LiDAR. La plupart des approches précédentes projettent directement le nuage de points 3D sur une image sphérique à deux dimensions (2D), afin de tirer parti des opérations de convolution 2D efficaces pour la segmentation d’images. Bien que ces méthodes aient obtenu des résultats encourageants, elles ne préservent pas adéquatement les informations de voisinage dans la projection sphérique. De plus, l’information temporelle n’est pas prise en compte dans les tâches de segmentation sur une seule trame. Pour résoudre ces problèmes, nous proposons une nouvelle approche de segmentation sémantique pour séquences LiDAR, nommée Meta-RangeSeg, qui introduit une nouvelle représentation par image de résidu de portée afin de capturer l’information spatio-temporelle. Plus précisément, nous utilisons un noyau métadonnée (Meta-Kernel) pour extraire des caractéristiques métadonnées, ce qui réduit l’incohérence entre les coordonnées 2D de l’image de portée en entrée et les coordonnées 3D cartésiennes en sortie. Un modèle principal U-Net efficace est employé pour obtenir des caractéristiques multi-échelles. En outre, un module d’agrégation de caractéristiques (FAM) renforce le rôle du canal de portée et agrège les caractéristiques à différentes échelles. Nous avons mené des expériences approfondies pour évaluer les performances sur les jeux de données SemanticKITTI et SemanticPOSS. Les résultats prometteurs démontrent que notre méthode Meta-RangeSeg est plus efficace et performante que les approches existantes. L’implémentation complète est disponible publiquement à l’adresse suivante : https://github.com/songw-zju/Meta-RangeSeg.