2 个月前

PointCLIP：基于CLIP的点云理解

Zhang, Renrui ; Guo, Ziyu ; Zhang, Wei ; Li, Kunchang ; Miao, Xupeng ; Cui, Bin ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng

摘要

近日，通过对比视觉-语言预训练（Contrastive Vision-Language Pre-training, CLIP）实现的零样本和少样本学习在二维视觉识别方面展现了鼓舞人心的性能，该方法能够在开放词汇设置下学习图像与其对应文本之间的匹配。然而，关于CLIP是否可以将其在大规模二维图像-文本对上预训练的能力推广到三维识别领域，目前仍鲜有研究。本文中，我们提出了一种称为PointCLIP的方法，证明了这种设置是可行的。PointCLIP通过将点云投影为多视角深度图而不进行渲染来对其进行编码，并聚合视角级的零样本预测以实现从二维到三维的知识迁移。在此基础上，我们设计了一个跨视角适配器，以更好地提取全局特征，并自适应地将从三维数据中学到的少样本知识融合到在二维数据上预训练的CLIP中。仅需在少样本设置下微调这个轻量级适配器，PointCLIP的性能就能得到显著提升。此外，我们观察到PointCLIP与传统的三维监督网络之间具有互补性。通过简单的集成方法，PointCLIP不仅提升了基线模型的性能，甚至超过了当前最先进的模型。因此，PointCLIP是一种有前景的替代方案，在低资源成本和数据条件下通过CLIP有效理解三维点云。我们在广泛使用的ModelNet10、ModelNet40以及具有挑战性的ScanObjectNN数据集上进行了详尽的实验，以验证PointCLIP的有效性。代码已发布在 https://github.com/ZrrSkywalker/PointCLIP。