7 个月前

摘要

自监督学习在自然语言处理与二维视觉领域已取得显著成功，其中掩码建模（masked modeling）作为一种广受欢迎的预训练范式被广泛应用。然而，将掩码机制扩展至结合局部与全局特征的三维点云理解任务中，仍面临全新挑战。在本工作中，我们提出 Point-LGMask，一种新颖的方法，通过多比例掩码策略同时嵌入点云的局部与全局上下文信息，该方法在自监督点云特征学习中表现优异，但却未被现有预训练方法所重视。具体而言，为避免模型过度适应固定掩码比例，我们首次提出多比例掩码机制，通过设置不同难度的重建任务，促使编码器充分探索具有代表性的特征。为进一步促进局部与全局特征的联合建模，我们设计了一种复合损失函数，包含两个组成部分：（i）全局表示对比损失，用于促使被掩码点云的聚类分配与完整输入保持一致；（ii）局部点云预测损失，以提升对被掩码点的精准重建能力。基于 Point-LGMask，我们验证了所学特征在多种下游任务中的良好迁移性能，涵盖少样本分类、形状分类、物体部件分割，以及真实场景下的三维物体检测与三维语义分割任务。特别地，在真实采集的 ScanObjectNN 数据集上进行少样本分类任务时，我们的模型相较当前第二佳方法显著提升超过 4%，大幅推进了现有预训练方法的性能上限。此外，在三维物体检测任务中，相较于次优方法，Point-LGMask 分别实现了 0.4% AP25 和 0.8% AP50 的提升；在三维语义分割任务中，mAcc 与 mIoU 分别提升 0.4% 和 0.5%。相关代码已开源，地址为：https://github.com/TangYuan96/Point-LGMask

源 PDF 查看代码