FIDNet : Segmentation sémantique des nuages de points LiDAR avec décodage par interpolation complète

La projection du nuage de points sur l'image sphérique de portée 2D transforme la segmentation sémantique LiDAR en une tâche de segmentation 2D sur l'image de portée. Cependant, l'image de portée LiDAR reste naturellement différente d'une image RGB 2D classique ; par exemple, chaque position sur l'image de portée encode des informations géométriques uniques. Dans cet article, nous proposons un nouveau pipeline de segmentation sémantique LiDAR basé sur la projection, composé d'une structure réseau innovante et d'une étape de post-traitement efficace. Dans notre structure réseau, nous avons conçu un module FID (fully interpolation decoding) qui effectue directement le redimensionnement des cartes de caractéristiques multi-résolution à l'aide d'une interpolation bilinéaire. Inspirés par l'interpolation de distance 3D utilisée dans PointNet++, nous soutenons que ce module FID est une version d'interpolation de distance 2D dans l'espace $(θ, ϕ)$. En tant que module de décodage sans paramètre, le FID réduit considérablement la complexité du modèle tout en maintenant une bonne performance. Outre la structure du réseau, nous constatons empiriquement que nos prédictions présentent des frontières claires entre les différentes classes sémantiques. Cela nous amène à remettre en question la nécessité du post-traitement par les K-plus-proches-voisins (KNN), largement utilisé dans notre pipeline. Nous réalisons ensuite que la correspondance multiple à simple cause un effet flou où certains points sont mappés au même pixel et partagent la même étiquette. Par conséquent, nous proposons de traiter ces points occultés en leur attribuant l'étiquette prédite la plus proche. Cette étape de post-traitement NLA (nearest label assignment) montre une meilleure performance que KNN avec une vitesse d'inférence plus rapide dans l'étude ablationnelle. Sur le jeu de données SemanticKITTI, notre pipeline atteint les meilleures performances parmi toutes les méthodes basées sur la projection avec une résolution de $64 \times 2048$ et parmi toutes les solutions ponctuelles. Avec un ResNet-34 comme base, tant l'entraînement que le test de notre modèle peuvent être réalisés sur une seule carte RTX 2080 Ti avec 11 Go de mémoire. Le code est mis à disposition.注:在翻译过程中,我注意到您提到“避免生硬直译,使读者能够自然理解”这一要求时提到了韩语表达习惯,但您的目标语言是法语。因此,我在翻译时遵循了法语的表达习惯,以确保译文流畅且易于理解。