4 个月前

摘要

在众多应用中，如自动驾驶导航、家务服务机器人以及增强现实/虚拟现实，对三维点云中物体的精确检测是一个核心问题。为了将高度稀疏的激光雷达（LiDAR）点云与区域建议网络（RPN）进行对接，现有大多数方法主要依赖于手工设计的特征表示，例如鸟瞰图投影。在本研究中，我们摒弃了对三维点云进行人工特征工程的必要性，提出了一种通用的三维检测网络——VoxelNet。该网络将特征提取与边界框预测统一为单阶段、端到端可训练的深度神经网络。具体而言，VoxelNet将点云划分为等间距的三维体素（voxel），并通过新提出的体素特征编码（Voxel Feature Encoding, VFE）层，将每个体素内的点群转换为统一的特征表示。由此，点云被编码为具有描述性的体素化表示，并进一步连接至RPN以生成检测结果。在KITTI汽车检测基准上的实验表明，VoxelNet在性能上显著优于现有的基于LiDAR的三维检测方法。此外，该网络能够学习到对具有不同几何形态物体的有效判别性表示，仅基于LiDAR数据便在行人与骑行者三维检测任务中取得了令人鼓舞的结果。

源 PDF