8 个月前

机器视觉 3D

Mosam Dabhi László A. Jeni Simon Lucey

摘要

从2D地标中提取3D结构和相机参数是计算机视觉领域的基石。传统方法一直局限于特定的刚性物体，例如透视n点（Perspective-n-Point, PnP）问题中的物体，但深度学习已经扩展了我们对各种物体类别（如C3DPO和PAUL）进行重建的能力，并且在噪声、遮挡和透视畸变方面表现出更强的鲁棒性。然而，所有这些技术都受到一个基本需求的限制，即需要在3D训练数据之间建立对应关系——这极大地限制了它们在拥有大量“对应”3D数据的应用中的实用性。我们的方法利用了 Transformer 固有的置换等变性，能够处理每个3D数据实例中不同数量的点，抵御遮挡，并泛化到未见过的类别。我们在多个2D-3D提升任务基准测试中展示了最先进的性能。由于我们的方法可以针对如此广泛的结构进行训练，我们将其简称为3D提升基础模型（3D Lifting Foundation Model, 3D-LFM）——这是该领域的首个此类模型。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

Mosam Dabhi László A. Jeni Simon Lucey

摘要

从2D地标中提取3D结构和相机参数是计算机视觉领域的基石。传统方法一直局限于特定的刚性物体，例如透视n点（Perspective-n-Point, PnP）问题中的物体，但深度学习已经扩展了我们对各种物体类别（如C3DPO和PAUL）进行重建的能力，并且在噪声、遮挡和透视畸变方面表现出更强的鲁棒性。然而，所有这些技术都受到一个基本需求的限制，即需要在3D训练数据之间建立对应关系——这极大地限制了它们在拥有大量“对应”3D数据的应用中的实用性。我们的方法利用了 Transformer 固有的置换等变性，能够处理每个3D数据实例中不同数量的点，抵御遮挡，并泛化到未见过的类别。我们在多个2D-3D提升任务基准测试中展示了最先进的性能。由于我们的方法可以针对如此广泛的结构进行训练，我们将其简称为3D提升基础模型（3D Lifting Foundation Model, 3D-LFM）——这是该领域的首个此类模型。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供