2 个月前
多视图压缩编码用于3D重建
Chao-Yuan Wu; Justin Johnson; Jitendra Malik; Christoph Feichtenhofer; Georgia Gkioxari

摘要
视觉识别的一个核心目标是从单张图像中理解物体和场景。得益于大规模学习和通用表示方法的发展,二维(2D)识别已经取得了巨大进展。相比之下,三维(3D)识别面临着新的挑战,这些挑战主要来源于图像中未显示的遮挡问题。以往的研究尝试通过多视图推断或依赖稀少的计算机辅助设计(CAD)模型和类别特定的先验知识来克服这些问题,但这些方法限制了其在新环境中的扩展应用。在这项工作中,我们探索通过学习受自监督学习进展启发的通用表示来进行单视图3D重建。我们提出了一种简单的框架,该框架可以处理单个物体或整个场景的3D点云,并结合类别无关的大规模训练数据集,从多样化的RGB-D视频中进行训练。我们的模型——多视图压缩编码(Multiview Compressive Coding, MCC)——学会了将输入的外观和几何信息进行压缩,以预测3D结构,这通过查询一个具有3D感知能力的解码器实现。MCC的通用性和高效性使其能够从大规模且多样化数据源中学习,并对由DALL·E 2生成的新颖物体或使用iPhone在野外捕获的物体具有强大的泛化能力。