Réévaluer la représentation en vue de portée pour la segmentation LiDAR

La segmentation LiDAR est cruciale pour la perception dans les véhicules autonomes. Les tendances récentes privilégient les méthodes basées sur les points ou les voxels, qui offrent souvent de meilleures performances que la représentation traditionnelle par vue de portée (range view). Dans ce travail, nous mettons en évidence plusieurs facteurs clés pour concevoir des modèles puissants basés sur la vue de portée. Nous observons que la « correspondance multiple vers un seul » (many-to-one), l'incohérence sémantique et la déformation des formes constituent des obstacles potentiels à un apprentissage efficace à partir des projections en vue de portée. Nous proposons RangeFormer, un cadre complet intégrant des innovations dans l’architecture du réseau, la mise en œuvre de techniques d’augmentation de données et le post-traitement, permettant une meilleure gestion de l’apprentissage et du traitement des nuages de points LiDAR à partir de la vue de portée. Nous introduisons également une stratégie d’apprentissage évolutive à partir de vue de portée (Scalable Training from Range view, STR), qui permet d’entraîner le modèle sur des images 2D de faible résolution arbitraires, tout en maintenant une précision satisfaisante en segmentation 3D. Nous démontrons, pour la première fois, qu’une méthode basée sur la vue de portée peut dépasser les approches basées sur les points, les voxels et la fusion multi-vues sur des benchmarks concurrents de segmentation sémantique et panoptique LiDAR, à savoir SemanticKITTI, nuScenes et ScribbleKITTI.