
摘要
本文提出了一种在RGB-D场景中为物体生成三维边界框的技术。我们的方法充分利用二维信息,快速缩小三维空间中的搜索范围,从而受益于当前先进的二维目标检测技术。随后,我们利用三维信息对边界框进行定向、定位与评分。针对每个物体,我们独立估计其方向,采用基于法线信息的已有技术;物体在三维空间中的位置与尺寸则通过多层感知机(MLP)进行学习。在最后一步中,我们基于场景内物体类别之间的关系对检测结果进行优化。在著名的SUN RGB-D数据集上进行的大量实验表明,与几乎完全依赖稀疏三维空间的当前最优检测方法相比,本文所提方法在RGB-D图像中检测三维物体的速度显著更快(每幅图像仅需4.1秒),且性能更优(mAP高出3个百分点),优于当前最先进方法(其速度慢4.7倍),并可与速度慢两个数量级的方法相媲美。本研究提示我们,应进一步探索以二维驱动为主的三维目标检测方法,尤其是在三维输入数据稀疏的场景下更具潜力。