2 个月前

合作整体场景理解:统一三维物体、布局和相机姿态估计

Siyuan Huang; Siyuan Qi; Yinxue Xiao; Yixin Zhu; Ying Nian Wu; Song-Chun Zhu
合作整体场景理解:统一三维物体、布局和相机姿态估计
摘要

整体3D室内场景理解是指联合恢复i)物体边界框,ii)房间布局,以及iii)相机姿态,全部在三维空间中进行。现有的方法要么效果不佳,要么仅部分解决该问题。本文提出了一种端到端模型,仅通过单张RGB图像即可实时同时完成上述三项任务。所提方法的核心在于通过i)参数化目标(例如3D边界框)而非直接估计目标,以及ii)跨不同模块的协同训练而不是单独训练这些模块来提高预测精度。具体而言,我们通过几个模块的预测结果来参数化3D物体边界框,即3D相机姿态和物体属性。该方法提供了两大优势:i)参数化有助于保持2D图像与3D世界的协调一致性,从而大幅减少3D坐标中的预测方差;ii)可以在参数化过程中施加约束以同时训练不同的模块。我们将这些约束称为“协同损失”(cooperative losses),因为它们能够实现联合训练和推理。我们采用了三种协同损失分别用于3D边界框、2D投影和物理约束的估计,以构建几何一致且物理合理的3D场景。在SUN RGB-D数据集上的实验表明,所提方法在3D物体检测、3D布局估计、3D相机姿态估计及整体场景理解方面显著优于先前的方法。