17 天前
单张图像的隐式表示下实现全面的三维场景理解
Cheng Zhang, Zhaopeng Cui, Yinda Zhang, Bing Zeng, Marc Pollefeys, Shuaicheng Liu

摘要
我们提出了一种从单张图像实现整体三维场景理解的新方法,能够同时预测物体的三维形状、物体位姿以及场景布局。由于该问题具有高度病态性,现有方法在复杂场景中常因物体间严重遮挡而导致形状与场景布局估计不准确。为此,我们引入最新的深度隐式表示方法以应对这一挑战。本文不仅提出了一种基于图像的局部结构化隐式神经网络,用于提升物体形状的估计精度,还设计了一种新颖的隐式场景图神经网络,通过挖掘隐式局部物体特征来优化三维物体位姿与场景布局的推断。此外,我们还提出了一种新型物理冲突损失函数,以避免物体之间出现不合理的上下文关系。大量实验结果表明,本方法在物体形状重建、场景布局估计以及三维物体检测任务上均优于当前最先进的技术。