8 个月前

多模态表征

计算机视觉

Xiangyang Zhu∗1, Renrui Zhang†‡2,3, Bowei He1, Ziyu Guo2,3, Ziyao Zeng5, Zipeng Qin2, Shanghang Zhang4, Peng Gao3

摘要

大规模预训练模型在视觉和语言任务中展现出令人鼓舞的开放世界性能。然而，它们在三维点云上的迁移能力仍然有限，仅局限于分类任务。本文中，我们首次将CLIP和GPT结合，构建了一个统一的三维开放世界学习器，命名为PointCLIP V2，该模型充分释放了它们在零样本三维分类、分割和检测任务中的潜力。为了更好地将三维数据与预训练的语言知识对齐，PointCLIP V2包含两项关键设计。在视觉端，我们通过形状投影模块提示CLIP生成更加真实的深度图，从而缩小投影点云与自然图像之间的域差距。在文本端，我们提示GPT模型生成特定于三维的文本作为CLIP文本编码器的输入。无需在三维领域进行任何训练，我们的方法在三个数据集上分别以+42.90%、+40.44%和+28.75%的准确率显著超越了PointCLIP，在零样本三维分类任务中表现出色。此外，V2可以简便地扩展到少样本三维分类、零样本三维部件分割以及三维目标检测任务中，展示了我们在统一三维开放世界学习方面的泛化能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

计算机视觉

Xiangyang Zhu∗1, Renrui Zhang†‡2,3, Bowei He1, Ziyu Guo2,3, Ziyao Zeng5, Zipeng Qin2, Shanghang Zhang4, Peng Gao3

摘要

大规模预训练模型在视觉和语言任务中展现出令人鼓舞的开放世界性能。然而，它们在三维点云上的迁移能力仍然有限，仅局限于分类任务。本文中，我们首次将CLIP和GPT结合，构建了一个统一的三维开放世界学习器，命名为PointCLIP V2，该模型充分释放了它们在零样本三维分类、分割和检测任务中的潜力。为了更好地将三维数据与预训练的语言知识对齐，PointCLIP V2包含两项关键设计。在视觉端，我们通过形状投影模块提示CLIP生成更加真实的深度图，从而缩小投影点云与自然图像之间的域差距。在文本端，我们提示GPT模型生成特定于三维的文本作为CLIP文本编码器的输入。无需在三维领域进行任何训练，我们的方法在三个数据集上分别以+42.90%、+40.44%和+28.75%的准确率显著超越了PointCLIP，在零样本三维分类任务中表现出色。此外，V2可以简便地扩展到少样本三维分类、零样本三维部件分割以及三维目标检测任务中，展示了我们在统一三维开放世界学习方面的泛化能力。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供