8 个月前

机器视觉 3D

计算机视觉

Yiming Li Zhiding Yu* Christopher Choy Chaowei Xiao Jose M. Alvarez Sanja Fidler Chen Feng Anima Anandkumar

摘要

人类可以轻松想象被遮挡物体和场景的完整三维几何结构。这种迷人的能力对于识别和理解至关重要。为了在人工智能系统中实现这一功能，我们提出了VoxFormer，这是一种基于Transformer的语义场景补全框架，可以从仅有的二维图像输出完整的三维体素语义。我们的框架采用了两阶段设计，首先从深度估计中获取一组稀疏的可见和占用体素查询，然后通过一个稠密化阶段从这些稀疏体素生成密集的三维体素。该设计的一个关键思想是，二维图像上的视觉特征仅对应于可见的场景结构，而不是被遮挡或空旷的空间。因此，从可见结构的特征化和预测开始更为可靠。一旦获得这组稀疏查询，我们应用一种掩码自编码器设计，通过自注意力机制将信息传播到所有体素。在SemanticKITTI数据集上的实验表明，VoxFormer在几何方面相对提升了20.0%，在语义方面相对提升了18.1%，并且在训练过程中将GPU内存消耗降低至16GB以下。我们的代码已发布在 https://github.com/NVlabs/VoxFormer。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

计算机视觉

Yiming Li Zhiding Yu* Christopher Choy Chaowei Xiao Jose M. Alvarez Sanja Fidler Chen Feng Anima Anandkumar

摘要

人类可以轻松想象被遮挡物体和场景的完整三维几何结构。这种迷人的能力对于识别和理解至关重要。为了在人工智能系统中实现这一功能，我们提出了VoxFormer，这是一种基于Transformer的语义场景补全框架，可以从仅有的二维图像输出完整的三维体素语义。我们的框架采用了两阶段设计，首先从深度估计中获取一组稀疏的可见和占用体素查询，然后通过一个稠密化阶段从这些稀疏体素生成密集的三维体素。该设计的一个关键思想是，二维图像上的视觉特征仅对应于可见的场景结构，而不是被遮挡或空旷的空间。因此，从可见结构的特征化和预测开始更为可靠。一旦获得这组稀疏查询，我们应用一种掩码自编码器设计，通过自注意力机制将信息传播到所有体素。在SemanticKITTI数据集上的实验表明，VoxFormer在几何方面相对提升了20.0%，在语义方面相对提升了18.1%，并且在训练过程中将GPU内存消耗降低至16GB以下。我们的代码已发布在 https://github.com/NVlabs/VoxFormer。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供