2 个月前
ULIP:学习语言、图像和点云的统一表示以实现三维理解
Xue, Le ; Gao, Mingfei ; Xing, Chen ; Martín-Martín, Roberto ; Wu, Jiajun ; Xiong, Caiming ; Xu, Ran ; Niebles, Juan Carlos ; Savarese, Silvio

摘要
当前最先进的3D模型的识别能力受到注释数据量较少的数据集和预定义类别集的限制。在2D领域的研究中,最近的进展表明,通过利用其他模态(如语言)的知识,可以显著缓解类似问题。受此启发,利用多模态信息来改善3D模态下的理解能力,在数据受限的情况下可能是一个有前景的方向,但这一研究方向尚未得到充分探索。因此,我们引入了ULIP,该方法通过使用来自三种模态的对象三元组进行预训练,学习图像、文本和3D点云的统一表示。为了克服训练三元组不足的问题,ULIP利用了一个已经通过大量图像-文本对训练而学会了共同视觉和文本空间的预训练视觉-语言模型。随后,ULIP使用少量自动合成的三元组学习一个与共同图像-文本空间对齐的3D表示空间。ULIP不依赖于特定的3D骨干网络,并且可以轻松集成到任何3D架构中。实验结果表明,仅通过在ShapeNet55上使用我们的框架对多个最新的3D骨干网络进行预训练,ULIP就能有效提升它们的性能,在ModelNet40和ScanObjectNN的标准3D分类和零样本3D分类任务中均达到了最先进水平。此外,ULIP还在ScanObjectNN上的3D分类任务中将PointMLP的性能提升了约3%,并在ModelNet40上的零样本3D分类任务中以Top-1准确率超越了PointCLIP 28.8%。我们的代码和预训练模型已发布在https://github.com/salesforce/ULIP。