摘要
点云是一种缺乏特定结构且具有置换不变性的三维几何数据。近年来,点云在视觉任务领域引起了广泛关注。然而,现有的大多数点云研究依赖于大规模标注数据上的监督学习,而这类数据的收集成本高昂且耗时费力。为此,无监督学习方法(如自监督学习)在二维计算机视觉的各类任务中展现出良好性能,并在三维计算机视觉应用中具有巨大潜力。在本研究中,我们提出一种新颖的自监督方法——CrossMoCo,该方法在多模态设置下学习未标注点云数据的表示,同时利用点云的二维渲染图像作为辅助信息。CrossMoCo通过引入两个新概念,在多模态点云自监督学习任务中超越了现有方法:一是基于大量负样本的动量对比学习,二是多视角单模态对比学习。第一项机制通过在线编码器与动量编码器协作,利用大量负样本提供一致的学习信号;第二项机制则强制同一模态下不同视角样本之间的表示一致性,从而增强多模态表征能力。我们在两个主流基准数据集(ModelNet40 和 ScanObjectNN)上开展了大量实验,评估了线性分类与少样本学习任务的表现。实验结果表明,CrossMoCo 在两个数据集上的两类任务中均显著优于现有方法,线性分类任务最高提升达 4.36%,少样本学习任务最高提升达 9.2%。相关代码已公开,地址为:https://github.com/snehaputul/CrossMoCo。