
摘要
场景理解对于自主系统在真实世界中可靠导航至关重要。三维激光雷达(LiDAR)扫描的全景分割能够通过为每个三维点预测语义类别,并为不同物体实例分配唯一的实例ID,从而实现对车辆周围环境的语义描述。为进一步刻画环境的动态变化,四维(4D)全景分割在时间维度上引入具有时序一致性的实例ID,以实现对连续扫描序列中各物体实例的稳定识别。然而,以往的4D全景分割方法通常依赖于后处理步骤(如聚类或预测结果间的关联),且难以实现端到端的可训练性。本文提出一种新型方法,可实现端到端训练,并直接预测一组互不重叠的掩码,同时输出其语义类别与时序一致的实例ID,无需任何后处理操作。我们通过复用前序扫描中已解码的实例查询(queries),将基于掩码的三维全景分割模型扩展至四维空间。在此机制下,每个查询在时间维度上持续追踪同一实例,携带其唯一的实例ID,从而实现隐式跟踪。该设计使得分割与跟踪任务能够联合优化,并可直接对4D全景分割进行端到端监督,显著提升了模型的效率与一致性。