8 个月前

计算机视觉

计算机视觉

Ziyi Wang Xumin Yu Yongming Rao Jie Zhou Jiwen Lu

摘要

随着由掩码自动编码器（MAE）引领的掩码图像建模趋势，生成预训练在提升2D视觉基础模型性能方面展现出了显著的潜力。然而，在3D视觉中，对基于Transformer的骨干网络的过度依赖以及点云的无序特性限制了生成预训练的进一步发展。在本文中，我们提出了一种新颖的3D到2D生成预训练方法，该方法适用于任何点云模型。我们建议通过交叉注意力机制作为预训练方案，从不同的指定姿态生成视图图像。生成视图图像比其点云对应物具有更精确的监督，从而有助于3D骨干网络更精细地理解点云的几何结构和立体关系。实验结果证明了我们提出的3D到2D生成预训练方法优于以往的预训练方法。我们的方法在提升架构导向方法的性能方面也表现出色，在ScanObjectNN分类和ShapeNetPart分割任务上微调时达到了最先进的性能。代码可在https://github.com/wangzy22/TAP 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Ziyi Wang Xumin Yu Yongming Rao Jie Zhou Jiwen Lu

摘要

随着由掩码自动编码器（MAE）引领的掩码图像建模趋势，生成预训练在提升2D视觉基础模型性能方面展现出了显著的潜力。然而，在3D视觉中，对基于Transformer的骨干网络的过度依赖以及点云的无序特性限制了生成预训练的进一步发展。在本文中，我们提出了一种新颖的3D到2D生成预训练方法，该方法适用于任何点云模型。我们建议通过交叉注意力机制作为预训练方案，从不同的指定姿态生成视图图像。生成视图图像比其点云对应物具有更精确的监督，从而有助于3D骨干网络更精细地理解点云的几何结构和立体关系。实验结果证明了我们提出的3D到2D生成预训练方法优于以往的预训练方法。我们的方法在提升架构导向方法的性能方面也表现出色，在ScanObjectNN分类和ShapeNetPart分割任务上微调时达到了最先进的性能。代码可在https://github.com/wangzy22/TAP 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供