
随着自动驾驶技术的快速发展,为其感知系统配备更加全面的三维(3D)环境理解能力变得至关重要。然而,现有研究通常仅聚焦于从激光雷达(LiDAR)传感器数据中解析物体(如车辆、行人)或场景(如树木、建筑物),难以实现对二者统一、协同的感知。针对这一挑战,本文提出基于LiDAR的全景分割(LiDAR-based panoptic segmentation)任务,旨在以统一框架同时解析场景中的物体与场景语义信息。作为该新兴挑战性任务的首批探索之一,我们提出了动态位移网络(Dynamic Shifting Network, DS-Net),这是一种在点云领域中高效且具有潜力的全景分割框架。DS-Net具备三个显著优势:1)强大的主干网络设计:DS-Net采用专为LiDAR点云设计的圆柱卷积(cylinder convolution),能够有效提取具有几何结构意义的特征。这些特征被语义分支与实例分支共享,其中实例分支采用自底向上的聚类策略进行实例分割。2)针对复杂点云分布的动态位移机制:我们观察到,传统聚类算法(如BFS或DBSCAN)在处理具有非均匀点云分布和不同实例尺寸的自动驾驶复杂场景时表现受限。为此,我们提出一种高效可学习的聚类模块——动态位移(dynamic shifting),该模块能够实时自适应地调整核函数,以适配不同实例的局部几何特性。3)共识驱动的融合机制:为解决语义预测与实例预测之间可能出现的不一致问题,我们引入共识驱动的融合策略,通过多视角一致性判断提升最终分割结果的可靠性。为全面评估基于LiDAR的全景分割性能,我们基于两个大规模自动驾驶LiDAR数据集——SemanticKITTI与nuScenes,构建并整理了标准化的基准测试集。大量实验结果表明,所提出的DS-Net在多项指标上显著优于当前最先进的方法。尤为突出的是,在SemanticKITTI公开排行榜上,DS-Net以2.6%的绝对优势超越第二名,在全景分割质量(PQ)指标上取得第一名的优异成绩。