2 个月前
Uni3D:探索大规模统一的三维表示
Zhou, Junsheng ; Wang, Jinsheng ; Ma, Baorui ; Liu, Yu-Shen ; Huang, Tiejun ; Wang, Xinlong

摘要
近年来,图像和文本表示的扩展研究已经取得了广泛进展,并引发了视觉和语言学习领域的革命。然而,三维物体和场景的可扩展表示相对较少被探索。在本工作中,我们介绍了 Uni3D,这是一种用于探索大规模统一三维表示的三维基础模型。Uni3D 使用端到端预训练的二维初始化 ViT(视觉变换器),将三维点云特征与图像-文本对齐特征进行对齐。通过简单的架构和预训练任务,Uni3D 可以利用丰富的二维预训练模型作为初始化,并将图像-文本对齐模型作为目标,从而释放二维模型及其扩展策略在三维世界中的巨大潜力。我们高效地将 Uni3D 扩展至十亿参数规模,并在一系列广泛的三维任务中创下了新的记录,例如零样本分类、少样本分类、开放世界理解以及部件分割。我们展示了强大的 Uni3D 表示还能够支持诸如野外三维绘画和检索等应用。我们认为,Uni3D 为探索三维领域内表示的扩展性和效率提供了新的方向。