
摘要
对比学习已成为3D开放世界理解的一个有前景的范式,即分别将点云表示对齐到图像和文本嵌入空间。在本文中,我们介绍了MixCon3D,这是一种简单而有效的方法,旨在通过对比语言-图像-3D预训练来构建整体的3D表示。与仅使用点云相比,我们从互补的角度开发了3D对象级别的表示,例如多视角渲染图像与点云相结合。随后,MixCon3D执行语言-3D对比学习,全面描述现实世界的3D对象并增强文本对齐。此外,我们首次对3D对比学习范式的各种训练方法进行了彻底的研究,建立了一个性能改进的坚实基线。在三个具有代表性的基准数据集上进行的大量实验表明,我们的方法显著优于基线,在具有挑战性的1,156类Objaverse-LVIS数据集上的性能比之前最先进的方法提高了5.7%。MixCon3D的多功能性在诸如文本到3D检索和点云描述等应用中得到了展示,进一步证明了其在多种场景中的有效性。代码可在https://github.com/UCSC-VLAA/MixCon3D 获取。