
摘要
掩码自编码器(MAE)在二维和三维计算机视觉的自监督学习中展现了令人鼓舞的性能。然而,现有的基于MAE的方法仍存在一些不足之处。首先,编码器和解码器之间的功能解耦不完全,这限制了编码器的学习表示能力。其次,下游任务仅利用编码器,未能充分利用通过编码器-解码器架构在预训练任务中获得的知识。本文提出了一种新的点云自监督学习回归自编码器方案——点回归自编码器(Point-RAE)。该方法通过引入掩码回归器来解耦解码器和编码器的功能,该回归器从编码器生成的可见补丁表示中预测被掩码的补丁表示,而解码器则根据预测的被掩码补丁表示重建目标。这样做可以最小化解码器更新对编码器表示空间的影响。此外,我们引入了一个对齐约束,以确保从可见补丁表示预测出的被掩码补丁表示与编码器计算出的被掩码补丁表示保持一致。为了充分利用预训练阶段学到的知识,我们为所提出的Point-RAE设计了一种新的微调模式。大量实验表明,我们的方法在预训练过程中效率高,并且在各种下游任务上具有良好的泛化能力。具体而言,我们的预训练模型在ScanObjectNN最难的数据集划分上达到了90.28%的高精度,在ModelNet40数据集上达到了94.1%的精度,超过了所有其他自监督学习方法。我们的代码和预训练模型已在以下网址公开提供:https://github.com/liuyyy111/Point-RAE。