Segmentation panoptique 4D basée sur LiDAR via un réseau de décalage dynamique

Avec les progrès rapides de la conduite autonome, il devient crucial d'équiper son système de détection d'une perception 3D plus complète. Cependant, les travaux existants se concentrent sur l'analyse soit des objets (par exemple, voitures et piétons), soit des scènes (par exemple, arbres et bâtiments) à partir du capteur LiDAR. Dans ce travail, nous abordons la tâche de segmentation panoptique basée sur le LiDAR, qui vise à analyser à la fois les objets et les scènes de manière unifiée. Comme l'une des premières tentatives pour cette nouvelle tâche complexe, nous proposons le réseau Dynamique Shifting (DS-Net), qui sert de cadre efficace pour la segmentation panoptique dans le domaine des nuages de points. En particulier, DS-Net présente trois propriétés attractives : 1) Conception robuste du backbone. DS-Net utilise la convolution cylindrique spécifiquement conçue pour les nuages de points LiDAR. 2) Décalage dynamique pour des distributions complexes de points. Nous constatons que les algorithmes de regroupement couramment utilisés ne sont pas en mesure de gérer des scènes complexes de conduite autonome avec des distributions non uniformes de nuages de points et des tailles d'instances variables. Ainsi, nous présentons un module de regroupement apprenable efficace, le décalage dynamique, qui adapte les fonctions noyau en temps réel pour différentes instances. 3) Extension à la prédiction 4D. De plus, nous étendons DS-Net à la segmentation panoptique LiDAR 4D par le regroupement temporellement unifié d'instances sur des trames LiDAR alignées. Pour évaluer exhaustivement les performances de la segmentation panoptique basée sur le LiDAR, nous construisons et curatons des bancs d'essai à partir de deux grands ensembles de données LiDAR pour la conduite autonome, SemanticKITTI et nuScenes. Des expériences approfondies montrent que notre DS-Net proposé atteint une précision supérieure aux méthodes actuelles les plus avancées dans les deux tâches. Notamment, dans la version mono-trame de la tâche, nous surpassons la méthode SOTA (State-of-the-Art) avec une amélioration de 1,8 % selon le métrique PQ (Panoptic Quality). Dans la version 4D de la tâche, nous dépassons le deuxième rang avec une amélioration de 5,4 % selon le métrique LSTQ (LiDAR Spatio-Temporal Quality).