
摘要
我们提出了一种快速的逆图形学框架,用于实例级三维场景理解。该框架训练一个深度卷积网络,使其能够将图像区域映射为图像中所有物体实例的完整三维形状与姿态。我们的方法生成一种紧凑的三维场景表示,可直接应用于自动驾驶等实际场景。通过渲染所生成的三维场景模型,即可轻松获得诸多传统二维视觉输出,如实例分割图和深度图。我们通过从大量CAD模型中学习低维形状空间,引入了类别特定的形状先验知识。同时,我们提出了新颖的形状与姿态表示方法,旨在实现更优的三维等变性(3D equivariance)与泛化能力。为充分利用二维标注(如分割标注)所提供的丰富监督信号,我们提出了一种可微分的“渲染-比较”损失函数,使得在仅使用二维监督的情况下也能有效学习三维形状与姿态。我们在具有挑战性的真实世界数据集Pascal3D+和KITTI上对所提方法进行了评估,结果达到了当前最优水平。