8 个月前

摘要

预训练使用大量图像数据已成为获得稳健2D表示的默认方法。相比之下，由于数据获取和注释成本高昂，大规模3D数据集的缺乏严重阻碍了高质量3D特征的学习。在本文中，我们提出了一种通过图像到点云掩码自编码器（Image-to-Point Masked Autoencoders, I2P-MAE）从2D预训练模型中获得优越3D表示的方法。通过自监督预训练，我们利用已学习良好的2D知识来指导3D掩码自编码过程，该过程使用编码器-解码器架构重建被掩码的点云标记。具体而言，我们首先利用现成的2D模型提取输入点云的多视角视觉特征，然后在其基础上进行两种类型的图像到点云学习方案。一方面，我们引入了一种由2D引导的掩码策略，保持语义上重要的点云标记对编码器可见。与随机掩码相比，网络可以更好地关注显著的3D结构，并从关键的空间线索中恢复被掩码的标记。另一方面，我们在解码器之后强制这些可见标记重建对应的多视角2D特征。这使得网络能够有效地继承从丰富图像数据中学到的高层次2D语义，用于区分性的3D建模。借助我们的图像到点云预训练方法，冻结后的I2P-MAE无需任何微调即可在ModelNet40上实现93.4%的线性SVM分类准确率，与现有方法完全训练的结果具有竞争力。进一步在ScanObjectNN最困难的数据分割上进行微调后，I2P-MAE达到了最先进的90.11%准确率，比第二好的方法高出3.68%，展示了其卓越的迁移能力。代码将在https://github.com/ZrrSkywalker/I2P-MAE提供。

源 PDF