8 个月前

摘要

高效且准确地从三维点云数据中检测行人对于许多机器人和自动驾驶应用至关重要。这一基本感知任务仍然非常具有挑战性，原因包括：(i) 人体姿态和手势随时间发生显著变形；(ii) 行人类物体在点云中的稀疏性和数据量不足。近期的高效三维目标检测方法依赖于柱状特征来从点云数据中检测物体。然而，这些柱状特征并不具备足够的表达能力来应对上述所有挑战，尤其是在检测行人方面。为了解决这一问题，我们首先引入了一种可堆叠的柱状特征感知注意力（PAA）模块，以增强柱状特征提取并抑制点云中的噪声。通过将多点通道池化、逐点、逐通道以及任务感知注意力机制整合到一个简单的模块中，该模块在几乎不增加计算资源的情况下提升了表示能力。此外，我们还提出了Mini-BiFPN，这是一种小巧但有效的特征网络，能够创建双向信息流和多层级跨尺度特征融合，从而更好地整合多分辨率特征。我们提出的框架称为PiFeNet，在三个流行的大型3D行人检测数据集（即KITTI、JRDB和nuScenes）上进行了评估，在KITTI鸟瞰图（BEV）和JRDB上达到了最先进的（SOTA）性能，在nuScenes上也表现出很强的竞争力。我们的方法具有每秒26帧（FPS）的推理速度，使其成为实时检测器。PiFeNet的代码可在https://github.com/ldtho/PiFeNet 获取。

源 PDF 查看代码