
摘要
近期,出现了大量基于RGB图像和3D图像的分类和检测系统。在本研究中,我们描述了一种新的从RGB-D或仅深度点云中进行3D物体检测的系统。该系统首先在2D图像(无论是RGB图像还是从深度数据构建的伪RGB图像)中检测物体。接下来,在这些2D检测定义的3D视锥内检测3D物体。这是通过将视锥的部分区域体素化来实现的(因为视锥可能非常大),而不是像早期工作那样使用整个视锥。我们的系统的最大创新之处在于确定哪些部分(3D候选区域)需要体素化,从而能够在感兴趣物体周围提供高分辨率表示。这还使得我们的系统具有较低的内存需求。这些3D候选区域被输入到一个高效的基于ResNet的3D全卷积网络(FCN)中。我们的3D检测系统速度快,可以集成到机器人平台中。与不进行体素化的系统(如PointNet)相比,我们的方法无需对数据集进行下采样即可运行。我们还引入了一种流水线方法,进一步提高了系统的效率。在SUN RGB-D数据集上的实验结果表明,基于小型网络的我们的系统可以以每秒20帧的速度处理数据,其检测结果与现有最先进方法相当,并且实现了两倍的速度提升。