7 个月前

摘要

近年来，利用深度神经网络从单视图或多视图RGB图像中恢复物体的三维表示引起了越来越多的关注。一些主流的研究工作（如3D-R2N2）采用递归神经网络（RNNs）来顺序融合从输入图像中提取的多个特征图。然而，当给定同一组输入图像但顺序不同时，基于RNN的方法无法生成一致的重建结果。此外，由于长期记忆损失，RNNs不能充分利用输入图像来优化重建结果。为了解决这些问题，我们提出了一种新的单视图和多视图三维重建框架，命名为Pix2Vox。通过精心设计的编码器-解码器结构，该框架可以从每个输入图像生成一个粗略的三维体素模型。然后，引入了一个上下文感知融合模块，以自适应地从不同的粗略三维体素模型中选择高质量的部分重建（例如桌腿），从而获得融合后的三维体素模型。最后，一个细化模块进一步优化融合后的三维体素模型，生成最终输出。在ShapeNet和Pix3D基准上的实验结果表明，所提出的Pix2Vox在很大程度上优于现有方法。此外，与3D-R2N2相比，所提出的方法在反向推理时间上快了24倍。对ShapeNet未见过的三维类别的实验也展示了我们的方法具有出色的泛化能力。

源 PDF