RangeNet++ : Segmentation sémantique LiDAR rapide et précise

La perception dans les véhicules autonomes est généralement réalisée à l’aide d’une combinaison de différentes modalités de capteurs. Étant donné la quantité massive de données étiquetées en RGB disponibles librement et l’émergence d’algorithmes de deep learning de haute qualité pour la reconnaissance d’images, les tâches de perception sémantique de haut niveau sont principalement résolues à l’aide de caméras haute résolution. En conséquence, d’autres modalités sensorielles potentiellement utiles pour cette tâche sont souvent ignorées. Dans cet article, nous améliorons l’état de l’art de la segmentation sémantique uniquement à partir de LiDAR afin de fournir une source indépendante supplémentaire d’information sémantique au véhicule. Notre approche permet une segmentation sémantique complète et précise des nuages de points LiDAR en temps réel, à la fréquence de rafraîchissement du capteur. Nous exploitons les images de portée comme représentation intermédiaire, combinées à un réseau de neurones convolutifs (CNN) qui prend en compte le modèle de rotation du capteur LiDAR. Pour obtenir des résultats précis, nous proposons un nouvel algorithme de post-traitement capable de résoudre les problèmes liés à cette représentation intermédiaire, tels que les erreurs de discrétisation et les sorties floues du CNN. Nous avons implémenté et évalué rigoureusement notre méthode, incluant plusieurs comparaisons avec les approches de pointe. Nos expérimentations montrent que notre approche surpasser les états de l’art existants tout en fonctionnant en temps réel sur une seule GPU embarqué. Le code est disponible à l’adresse suivante : https://github.com/PRBonn/lidar-bonnetal