8 个月前

多模态表征

计算机视觉

计算机视觉

Junsheng Zhou Jinsheng Wang Baorui Ma Yu-Shen Liu Tiejun Huang Xinlong Wang

摘要

近年来，图像和文本表示的扩展研究已经取得了广泛进展，并引发了视觉和语言学习领域的革命。然而，三维物体和场景的可扩展表示相对较少被探索。在本工作中，我们介绍了 Uni3D，这是一种用于探索大规模统一三维表示的三维基础模型。Uni3D 使用端到端预训练的二维初始化 ViT（视觉变换器），将三维点云特征与图像-文本对齐特征进行对齐。通过简单的架构和预训练任务，Uni3D 可以利用丰富的二维预训练模型作为初始化，并将图像-文本对齐模型作为目标，从而释放二维模型及其扩展策略在三维世界中的巨大潜力。我们高效地将 Uni3D 扩展至十亿参数规模，并在一系列广泛的三维任务中创下了新的记录，例如零样本分类、少样本分类、开放世界理解以及部件分割。我们展示了强大的 Uni3D 表示还能够支持诸如野外三维绘画和检索等应用。我们认为，Uni3D 为探索三维领域内表示的扩展性和效率提供了新的方向。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

计算机视觉

Junsheng Zhou Jinsheng Wang Baorui Ma Yu-Shen Liu Tiejun Huang Xinlong Wang

摘要

近年来，图像和文本表示的扩展研究已经取得了广泛进展，并引发了视觉和语言学习领域的革命。然而，三维物体和场景的可扩展表示相对较少被探索。在本工作中，我们介绍了 Uni3D，这是一种用于探索大规模统一三维表示的三维基础模型。Uni3D 使用端到端预训练的二维初始化 ViT（视觉变换器），将三维点云特征与图像-文本对齐特征进行对齐。通过简单的架构和预训练任务，Uni3D 可以利用丰富的二维预训练模型作为初始化，并将图像-文本对齐模型作为目标，从而释放二维模型及其扩展策略在三维世界中的巨大潜力。我们高效地将 Uni3D 扩展至十亿参数规模，并在一系列广泛的三维任务中创下了新的记录，例如零样本分类、少样本分类、开放世界理解以及部件分割。我们展示了强大的 Uni3D 表示还能够支持诸如野外三维绘画和检索等应用。我们认为，Uni3D 为探索三维领域内表示的扩展性和效率提供了新的方向。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供