HyperAIHyperAI

Command Palette

Search for a command to run...

PonderV2:通过通用预训练范式为3D基础模型铺平道路

摘要

与众多自然语言处理(NLP)和二维视觉基础模型相比,学习三维基础模型面临着显著更大的挑战。这主要是由于下游任务中固有的数据变异性及多样性。本文介绍了一种新颖的通用三维预训练框架,旨在促进高效三维表示的获取,从而为构建三维基础模型铺平道路。考虑到富有信息量的三维特征应编码丰富的几何和外观线索,这些线索可用于生成逼真的图像,我们提出通过可微神经渲染来学习三维表示。我们通过比较渲染图像与真实图像,使用设计好的体素神经渲染器训练三维主干网络。值得注意的是,我们的方法可以无缝地将所学的三维编码器集成到各种下游任务中。这些任务不仅包括高层次的挑战如三维检测和分割,还包括低层次的目标如三维重建和图像合成,涵盖了室内和室外场景。此外,我们还展示了使用所提出的框架预训练二维主干网络的能力,其性能远超传统的预训练方法。PonderV2首次在11个室内外基准测试中达到了最先进的性能水平,表明了其有效性。代码和模型可在https://github.com/OpenGVLab/PonderV2 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供