2 个月前

CrossPoint:用于3D点云理解的自监督跨模态对比学习

Afham, Mohamed ; Dissanayake, Isuru ; Dissanayake, Dinithi ; Dharmasiri, Amaya ; Thilakarathna, Kanchana ; Rodrigo, Ranga
CrossPoint:用于3D点云理解的自监督跨模态对比学习
摘要

大规模点云数据集的手动标注对于诸如3D对象分类、分割和检测等不同任务而言通常是一项繁重的工作,这主要是由于点云的不规则结构所致。自监督学习作为一种无需人工标注的方法,在解决这一问题方面展现出巨大的潜力。我们观察到,在现实世界中,人类能够将从2D图像中学到的视觉概念映射到对3D世界的理解上。受此启发,我们提出了CrossPoint,这是一种简单的跨模态对比学习方法,用于学习可迁移的3D点云表示。通过在不变空间中最大化点云与其对应的渲染2D图像之间的协议,同时鼓励点云模态中的变换不变性,CrossPoint实现了3D-2D对象对应关系。我们的联合训练目标结合了模态内和模态间的特征对应关系,从而以自监督的方式从3D点云和2D图像模态中整合了丰富的学习信号。实验结果表明,我们的方法在包括3D对象分类和分割在内的多种下游任务上优于以往的无监督学习方法。此外,消融研究验证了我们的方法在提高点云理解方面的有效性。代码和预训练模型可在http://github.com/MohamedAfham/CrossPoint获取。