2 个月前

PonderV2:通过通用预训练范式为3D基础模型铺平道路

Haoyi Zhu; Honghui Yang; Xiaoyang Wu; Di Huang; Sha Zhang; Xianglong He; Hengshuang Zhao; Chunhua Shen; Yu Qiao; Tong He; Wanli Ouyang
PonderV2:通过通用预训练范式为3D基础模型铺平道路
摘要

与众多自然语言处理(NLP)和二维视觉基础模型相比,学习三维基础模型面临着显著更大的挑战。这主要是由于下游任务中固有的数据变异性及多样性。本文介绍了一种新颖的通用三维预训练框架,旨在促进高效三维表示的获取,从而为构建三维基础模型铺平道路。考虑到富有信息量的三维特征应编码丰富的几何和外观线索,这些线索可用于生成逼真的图像,我们提出通过可微神经渲染来学习三维表示。我们通过比较渲染图像与真实图像,使用设计好的体素神经渲染器训练三维主干网络。值得注意的是,我们的方法可以无缝地将所学的三维编码器集成到各种下游任务中。这些任务不仅包括高层次的挑战如三维检测和分割,还包括低层次的目标如三维重建和图像合成,涵盖了室内和室外场景。此外,我们还展示了使用所提出的框架预训练二维主干网络的能力,其性能远超传统的预训练方法。PonderV2首次在11个室内外基准测试中达到了最先进的性能水平,表明了其有效性。代码和模型可在https://github.com/OpenGVLab/PonderV2 获取。

PonderV2:通过通用预训练范式为3D基础模型铺平道路 | 最新论文 | HyperAI超神经