摘要
自监督学习在自然语言处理与二维视觉领域已取得显著成功,其中掩码建模(masked modeling)作为一种广受欢迎的预训练范式被广泛应用。然而,将掩码机制扩展至结合局部与全局特征的三维点云理解任务中,仍面临全新挑战。在本工作中,我们提出 Point-LGMask,一种新颖的方法,通过多比例掩码策略同时嵌入点云的局部与全局上下文信息,该方法在自监督点云特征学习中表现优异,但却未被现有预训练方法所重视。具体而言,为避免模型过度适应固定掩码比例,我们首次提出多比例掩码机制,通过设置不同难度的重建任务,促使编码器充分探索具有代表性的特征。为进一步促进局部与全局特征的联合建模,我们设计了一种复合损失函数,包含两个组成部分:(i)全局表示对比损失,用于促使被掩码点云的聚类分配与完整输入保持一致;(ii)局部点云预测损失,以提升对被掩码点的精准重建能力。基于 Point-LGMask,我们验证了所学特征在多种下游任务中的良好迁移性能,涵盖少样本分类、形状分类、物体部件分割,以及真实场景下的三维物体检测与三维语义分割任务。特别地,在真实采集的 ScanObjectNN 数据集上进行少样本分类任务时,我们的模型相较当前第二佳方法显著提升超过 4%,大幅推进了现有预训练方法的性能上限。此外,在三维物体检测任务中,相较于次优方法,Point-LGMask 分别实现了 0.4% AP25 和 0.8% AP50 的提升;在三维语义分割任务中,mAcc 与 mIoU 分别提升 0.4% 和 0.5%。相关代码已开源,地址为:https://github.com/TangYuan96/Point-LGMask