
摘要
基于激光雷达(LiDAR)点云的精准三维物体检测面临数据稀疏性和点云不规则性等挑战。现有方法通常试图将点云规则化组织,例如通过体素化(voxelization),再输入设计好的二维或三维神经网络,并基于目标物体上所有点的集体证据,定义物体级别的锚框(anchor),以预测三维边界框的偏移量。然而,与当前主流的基于锚框的方法不同,我们基于数据稀疏性的本质特征观察到:即使单个物体局部区域的点,也蕴含着关于该物体语义信息的丰富线索。因此,本文提出一种与现有方法相反的思路——摒弃物体级别的锚框机制。受组合模型(compositional models)的启发,该模型将物体建模为若干组成部分及其空间关系的组合,我们提出将物体表示为其内部非空体素(即“热点”,hotspots)及其热点之间空间关系的组合。这一新表示方法被称为“热点表示的物体”(Object as Hotspots, OHS)。基于OHS,我们进一步设计了一种无锚框检测头,并提出一种新颖的真值分配策略,有效缓解了不同物体间点云稀疏性不平衡的问题,防止网络对点数较多的物体产生偏好。实验结果表明,所提方法在点数较少的物体检测任务中表现尤为出色。尤为突出的是,在KITTI 3D检测基准测试中,本方法在自行车和行人检测任务上取得了第一名的成绩;在NuScenes 3D检测基准上也达到了当前最优(state-of-the-art)性能。