17 天前

基于位置引导的点云全景分割Transformer

Zeqi Xiao, Wenwei Zhang, Tai Wang, Chen Change Loy, Dahua Lin, Jiangmiao Pang
基于位置引导的点云全景分割Transformer
摘要

DEtection TRansformer(DETR)开启了一种新趋势,即通过一组可学习的查询(queries)实现统一的视觉感知。本文首先将这一具有吸引力的范式应用于基于LiDAR的点云分割任务,构建了一个简单却高效的基础模型。尽管直接迁移该方法取得了尚可的结果,但在实例分割性能方面仍明显逊色于以往的工作。深入分析后我们发现,稀疏点云中的实例相对于整个场景而言尺寸较小,且往往具有相似的几何结构,但缺乏显著的外观特征以供区分——这一现象在图像领域较为罕见。考虑到三维空间中的实例更依赖于其位置信息,我们在建模过程中特别强调了位置特征的作用,并设计了一种鲁棒的混合参数化位置嵌入(Mixed-parameterized Positional Embedding, MPE)。该嵌入被融合至主干网络特征中,并在后续迭代过程中持续引导掩码预测与查询更新,从而实现了位置感知分割(Position-Aware Segmentation, PA-Seg)与掩码聚焦注意力机制(Masked Focal Attention, MFA)。上述设计有效促使查询关注特定区域,精准识别不同实例。所提出的模型命名为位置引导的点云全景分割Transformer(Position-guided Point cloud Panoptic segmentation transFormer, P3Former),在SemanticKITTI和nuScenes两个基准测试上分别以3.4%和1.2%的PQ(Panoptic Quality)提升,超越了此前的最先进方法。相关源代码与预训练模型已开源,地址为:https://github.com/SmartBot-PJLab/P3Former。