2 个月前

通过图像到点的掩码自动编码器从2D预训练模型学习3D表示

Zhang, Renrui ; Wang, Liuhui ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
通过图像到点的掩码自动编码器从2D预训练模型学习3D表示
摘要

预训练使用大量图像数据已成为获得稳健2D表示的默认方法。相比之下,由于数据获取和注释成本高昂,大规模3D数据集的缺乏严重阻碍了高质量3D特征的学习。在本文中,我们提出了一种通过图像到点云掩码自编码器(Image-to-Point Masked Autoencoders, I2P-MAE)从2D预训练模型中获得优越3D表示的方法。通过自监督预训练,我们利用已学习良好的2D知识来指导3D掩码自编码过程,该过程使用编码器-解码器架构重建被掩码的点云标记。具体而言,我们首先利用现成的2D模型提取输入点云的多视角视觉特征,然后在其基础上进行两种类型的图像到点云学习方案。一方面,我们引入了一种由2D引导的掩码策略,保持语义上重要的点云标记对编码器可见。与随机掩码相比,网络可以更好地关注显著的3D结构,并从关键的空间线索中恢复被掩码的标记。另一方面,我们在解码器之后强制这些可见标记重建对应的多视角2D特征。这使得网络能够有效地继承从丰富图像数据中学到的高层次2D语义,用于区分性的3D建模。借助我们的图像到点云预训练方法,冻结后的I2P-MAE无需任何微调即可在ModelNet40上实现93.4%的线性SVM分类准确率,与现有方法完全训练的结果具有竞争力。进一步在ScanObjectNN最困难的数据分割上进行微调后,I2P-MAE达到了最先进的90.11%准确率,比第二好的方法高出3.68%,展示了其卓越的迁移能力。代码将在https://github.com/ZrrSkywalker/I2P-MAE提供。