6 个月前

摘要

现有的大多数方法通过扩展用于3D目标检测或3D语义分割的模型来实现3D实例分割。然而，这些非直接的方法存在两个主要缺陷：1）不精确的边界框或不理想的语义预测限制了整体3D实例分割框架的性能；2）现有方法需要一个耗时的中间聚合步骤。为解决上述问题，本文提出一种基于Superpoint Transformer的新型端到端3D实例分割方法，命名为SPFormer。该方法将点云中的潜在特征聚合成超点（superpoints），并直接通过查询向量预测实例，无需依赖目标检测或语义分割的结果。该框架的关键在于一种新型的基于Transformer的查询解码器，其通过超点交叉注意力机制捕捉实例信息，并生成对应实例的超点掩码。借助基于超点掩码的二分图匹配策略，SPFormer能够在不引入中间聚合步骤的情况下实现网络训练，从而显著提升推理速度。在ScanNetv2和S3DIS基准数据集上的大量实验验证了所提方法的简洁性与高效性。值得注意的是，SPFormer在ScanNetv2的隐藏测试集上相较现有最优方法取得了4.3%的mAP提升，同时保持了快速的推理速度（每帧仅需247ms）。代码已开源，地址为：https://github.com/sunjiahao1999/SPFormer。

源 PDF