2 个月前

Pix2Vox:基于上下文感知的单视图和多视图图像3D重建

Haozhe Xie; Hongxun Yao; Xiaoshuai Sun; Shangchen Zhou; Shengping Zhang
Pix2Vox:基于上下文感知的单视图和多视图图像3D重建
摘要

近年来,利用深度神经网络从单视图或多视图RGB图像中恢复物体的三维表示引起了越来越多的关注。一些主流的研究工作(如3D-R2N2)采用递归神经网络(RNNs)来顺序融合从输入图像中提取的多个特征图。然而,当给定同一组输入图像但顺序不同时,基于RNN的方法无法生成一致的重建结果。此外,由于长期记忆损失,RNNs不能充分利用输入图像来优化重建结果。为了解决这些问题,我们提出了一种新的单视图和多视图三维重建框架,命名为Pix2Vox。通过精心设计的编码器-解码器结构,该框架可以从每个输入图像生成一个粗略的三维体素模型。然后,引入了一个上下文感知融合模块,以自适应地从不同的粗略三维体素模型中选择高质量的部分重建(例如桌腿),从而获得融合后的三维体素模型。最后,一个细化模块进一步优化融合后的三维体素模型,生成最终输出。在ShapeNet和Pix3D基准上的实验结果表明,所提出的Pix2Vox在很大程度上优于现有方法。此外,与3D-R2N2相比,所提出的方法在反向推理时间上快了24倍。对ShapeNet未见过的三维类别的实验也展示了我们的方法具有出色的泛化能力。

Pix2Vox:基于上下文感知的单视图和多视图图像3D重建 | 最新论文 | HyperAI超神经