8 个月前

摘要

由于训练数据有限，3D视觉与语言的预训练仍处于发展阶段。近期的研究尝试将视觉-语言预训练模型迁移到3D视觉领域。PointCLIP将点云数据转换为多视图深度图，采用CLIP进行形状分类。然而，其性能受到渲染深度图与图像之间域差距以及深度分布多样性的限制。为了解决这一问题，我们提出了CLIP2Point，这是一种通过对比学习实现图像-深度预训练的方法，旨在将CLIP迁移到3D领域并适应点云分类任务。我们引入了一种新的深度渲染设置，以形成更好的视觉效果，并从ShapeNet中渲染了52,460对图像和深度图用于预训练。CLIP2Point的预训练方案结合了跨模态学习，以强化深度特征捕捉表达性的视觉和文本特征，以及同模态学习，以增强深度聚合的不变性。此外，我们提出了一种新颖的双路径适配器（Dual-Path Adapter, DPA）模块，即一种具有简化适配器的双路径结构，适用于少样本学习。该双路径结构允许同时使用CLIP和CLIP2Point，而简化的适配器则无需后续搜索即可很好地适应少样本任务。实验结果表明，CLIP2Point在将CLIP知识迁移至3D视觉方面是有效的。我们的CLIP2Point在零样本和少样本分类任务上优于PointCLIP和其他自监督3D网络，达到了当前最佳的结果。

源 PDF