
摘要
掩码自动编码器在点云自监督学习中得到了广泛研究,通常将点云划分为可见部分和掩码部分。这些方法通常包括一个编码器,该编码器接受可见补丁(归一化)及其对应的补丁中心(位置)作为输入,而解码器则接受编码器的输出以及掩码部分的中心(位置),以重建每个掩码补丁中的点。随后,预训练的编码器被用于下游任务。在本文中,我们展示了一个鼓舞人心的经验结果:当直接将掩码补丁的中心输入解码器而不提供来自编码器的信息时,解码器仍然能够很好地重建。换句话说,补丁中心是重要的,重建目标不一定依赖于编码器的表示,这可能会阻碍编码器学习语义表示。基于这一关键观察,我们提出了一种简单而有效的方法——预测点掩码自动编码器的重要中心(PCP-MAE),该方法引导模型学习预测重要中心,并用预测的中心替代直接提供的中心。具体而言,我们提出了一种预测中心模块(Predicting Center Module, PCM),该模块与原始编码器共享参数,并通过额外的交叉注意力机制来预测中心。与其它替代方案相比,我们的方法具有较高的预训练效率,并且在ScanObjectNN数据集上的3D物体分类任务中显著优于Point-MAE,特别是在OBJ-BG上提升了5.50%,在OBJ-ONLY上提升了6.03%,在PB-T50-RS上提升了5.17%。代码可在以下地址获取:https://github.com/aHapBean/PCP-MAE。