
摘要
尽管点云分割在三维理解中扮演着核心角色,但为该任务标注大规模场景的完整数据仍存在成本高、耗时长的问题。为解决这一挑战,本文提出Point Central Transformer(PointCT),一种新颖的端到端可训练Transformer网络,用于弱监督下的点云语义分割。与以往方法不同,我们的方法仅基于三维点云,通过基于中心点的注意力机制,有效应对标注点数据有限的难题。通过引入两种嵌入过程,所提出的注意力机制能够整合邻域内的全局特征,从而显著增强未标注点的表示能力。同时,中心点与其各自邻域之间的关联关系实现了双向一致性建模。此外,通过引入位置编码,进一步强化了几何特征的表达,提升了整体性能。值得注意的是,PointCT在不同标注点比例设置下均表现出卓越的性能,且无需额外监督。在公开数据集S3DIS、ScanNet-V2和STPLS3D上的大量实验结果表明,所提出的方法在多项指标上均优于现有最先进方法。