16 天前

PerspectiveNet:通过透视点实现从单张RGB图像的3D目标检测

Siyuan Huang, Yixin Chen, Tao Yuan, Siyuan Qi, Yixin Zhu, Song-Chun Zhu
PerspectiveNet:通过透视点实现从单张RGB图像的3D目标检测
摘要

从单张RGB图像中检测三维物体本质上具有歧义性,因此需要引入适当的先验知识和中间表示作为约束,以降低不确定性,并增强二维图像平面与三维世界坐标之间的一致性。为应对这一挑战,我们提出采用透视点(perspective points)作为新的中间表示,其定义为局部曼哈顿三维关键点在图像平面上的二维投影,用于定位物体;这些透视点满足由透视投影所施加的几何约束。在此基础上,我们进一步设计了PerspectiveNet,一种端到端可训练的模型,能够从单张RGB图像中同时检测每个物体的二维边界框、二维透视点以及三维边界框。PerspectiveNet具有三大独特优势:(i) 三维物体边界框的估计基于透视点,无需依赖类别特定的三维形状先验,即可在二维与三维边界框之间建立有效桥梁;(ii) 通过基于模板的方法预测透视点,并设计了相应的透视损失(perspective loss),以保持透视几何约束;(iii) 利用可微分的投影函数,确保二维透视点与三维边界框之间的几何一致性。在SUN RGB-D数据集上的实验结果表明,所提出的方法显著优于现有的基于RGB图像的三维物体检测方法。

PerspectiveNet:通过透视点实现从单张RGB图像的3D目标检测 | 最新论文 | HyperAI超神经