8 个月前

计算机视觉

多任务学习

计算机视觉

Haotian Liu Mu Cai Yong Jae Lee

摘要

掩码自编码在图像和语言领域的自监督学习中取得了巨大成功。然而，基于掩码的预训练尚未在点云理解中展现出优势，这可能是因为像PointNet这样的标准骨干网络无法妥善处理训练过程中引入的训练与测试分布不匹配问题。在本文中，我们通过提出一种用于点云的判别性掩码预训练Transformer框架——MaskPoint，来弥合这一差距。我们的核心思想是将点云表示为离散的占用值（如果属于点云则为1；否则为0），并执行一个简单的二分类任务，即在被掩码的对象点和采样的噪声点之间进行区分。这样，我们的方法对点云中的点采样变化具有鲁棒性，并有助于学习丰富的表示。我们在多个下游任务上评估了我们的预训练模型，包括3D形状分类、分割和真实世界对象检测，并展示了最先进的结果，同时相比之前的Transformer基线方法实现了显著的预训练加速（例如，在ScanNet数据集上达到4.1倍）。代码可在https://github.com/haotian-liu/MaskPoint 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

多任务学习

计算机视觉

Haotian Liu Mu Cai Yong Jae Lee

摘要

掩码自编码在图像和语言领域的自监督学习中取得了巨大成功。然而，基于掩码的预训练尚未在点云理解中展现出优势，这可能是因为像PointNet这样的标准骨干网络无法妥善处理训练过程中引入的训练与测试分布不匹配问题。在本文中，我们通过提出一种用于点云的判别性掩码预训练Transformer框架——MaskPoint，来弥合这一差距。我们的核心思想是将点云表示为离散的占用值（如果属于点云则为1；否则为0），并执行一个简单的二分类任务，即在被掩码的对象点和采样的噪声点之间进行区分。这样，我们的方法对点云中的点采样变化具有鲁棒性，并有助于学习丰富的表示。我们在多个下游任务上评估了我们的预训练模型，包括3D形状分类、分割和真实世界对象检测，并展示了最先进的结果，同时相比之前的Transformer基线方法实现了显著的预训练加速（例如，在ScanNet数据集上达到4.1倍）。代码可在https://github.com/haotian-liu/MaskPoint 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供