8 个月前

多任务学习

计算机视觉

Haoyi Zhu Honghui Yang Xiaoyang Wu Di Huang Sha Zhang Xianglong He Hengshuang Zhao Chunhua Shen Yu Qiao Tong He

摘要

与众多自然语言处理（NLP）和二维视觉基础模型相比，学习三维基础模型面临着显著更大的挑战。这主要是由于下游任务中固有的数据变异性及多样性。本文介绍了一种新颖的通用三维预训练框架，旨在促进高效三维表示的获取，从而为构建三维基础模型铺平道路。考虑到富有信息量的三维特征应编码丰富的几何和外观线索，这些线索可用于生成逼真的图像，我们提出通过可微神经渲染来学习三维表示。我们通过比较渲染图像与真实图像，使用设计好的体素神经渲染器训练三维主干网络。值得注意的是，我们的方法可以无缝地将所学的三维编码器集成到各种下游任务中。这些任务不仅包括高层次的挑战如三维检测和分割，还包括低层次的目标如三维重建和图像合成，涵盖了室内和室外场景。此外，我们还展示了使用所提出的框架预训练二维主干网络的能力，其性能远超传统的预训练方法。PonderV2首次在11个室内外基准测试中达到了最先进的性能水平，表明了其有效性。代码和模型可在https://github.com/OpenGVLab/PonderV2 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多任务学习

计算机视觉

Haoyi Zhu Honghui Yang Xiaoyang Wu Di Huang Sha Zhang Xianglong He Hengshuang Zhao Chunhua Shen Yu Qiao Tong He

摘要

与众多自然语言处理（NLP）和二维视觉基础模型相比，学习三维基础模型面临着显著更大的挑战。这主要是由于下游任务中固有的数据变异性及多样性。本文介绍了一种新颖的通用三维预训练框架，旨在促进高效三维表示的获取，从而为构建三维基础模型铺平道路。考虑到富有信息量的三维特征应编码丰富的几何和外观线索，这些线索可用于生成逼真的图像，我们提出通过可微神经渲染来学习三维表示。我们通过比较渲染图像与真实图像，使用设计好的体素神经渲染器训练三维主干网络。值得注意的是，我们的方法可以无缝地将所学的三维编码器集成到各种下游任务中。这些任务不仅包括高层次的挑战如三维检测和分割，还包括低层次的目标如三维重建和图像合成，涵盖了室内和室外场景。此外，我们还展示了使用所提出的框架预训练二维主干网络的能力，其性能远超传统的预训练方法。PonderV2首次在11个室内外基准测试中达到了最先进的性能水平，表明了其有效性。代码和模型可在https://github.com/OpenGVLab/PonderV2 获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供