
摘要
三维场景中的实例分割在场景理解的诸多应用中具有基础性作用。然而,由于数据分布不规则以及实例数量不确定等复杂因素,该任务仍极具挑战性。当前最先进的方法大多采用一种通用流程:首先学习具有语义与实例区分能力的点级特征,随后通过独立的点分组步骤来生成物体实例。尽管该方法展现出良好前景,但仍存在两个主要缺陷:(1)第二步的点分组过程未直接由实例分割的主要目标进行监督,导致优化目标不一致;(2)点级特征学习与分组机制对数据不规则性处理能力有限,可能导致分割结果碎片化。为解决上述问题,本文提出一种端到端的解决方案——语义超点树网络(Semantic Superpoint Tree Network, SSTNet),用于从场景点云中直接生成物体实例。SSTNet的核心是一个中间结构——语义超点树(Semantic Superpoint Tree, SST),该结构基于学习到的超点语义特征构建,并在中间树节点处进行遍历与分裂,以生成实例候选。此外,SSTNet还设计了一种称为CliqueNet的精炼模块,用于剔除可能被错误归入实例候选的超点,从而提升分割精度。在ScanNet与S3DIS两个基准数据集上的实验结果表明,所提方法具有显著有效性。在投稿时,SSTNet在ScanNet(V2)排行榜上位列第一,其mAP指标比第二名高出2%。相关PyTorch实现代码已开源,地址为:https://github.com/Gorilla-Lab-SCUT/SSTNet。