2 个月前
自编码器作为跨模态教师:预训练的2D图像变换器能否助力3D表征学习?
Dong, Runpei ; Qi, Zekun ; Zhang, Linfeng ; Zhang, Junbo ; Sun, Jianjian ; Ge, Zheng ; Yi, Li ; Ma, Kaisheng

摘要
深度学习的成功在很大程度上依赖于具有全面标签的大规模数据集,而在三维(3D)领域获取这些数据比二维图像或自然语言更为昂贵且耗时。这促进了利用预训练模型作为跨模态知识传递教师的潜力。本文中,我们以知识蒸馏的统一方式重新审视了掩码建模,并展示了通过训练自动编码器作为跨模态教师(ACT),可以利用预训练的二维图像或自然语言基础Transformer来帮助自监督的三维表示学习。在此过程中,预训练的Transformer通过离散变分自动编码自监督方法转换为跨模态3D教师,同时通过提示调优冻结这些Transformer以实现更好的知识传承。由3D教师编码的潜在特征被用作掩码点建模的目标,在此过程中,暗知识被蒸馏到3D Transformer学生中,形成基础几何理解。我们的ACT预训练3D学习器在多个下游基准测试中表现出最先进的泛化能力,例如在ScanObjectNN上的总体准确率达到88.21%。代码已发布在https://github.com/RunpeiDong/ACT。