6 个月前

摘要

自动驾驶系统高度依赖底层的感知模块，该模块必须在保证高性能的同时具备高效率，以实现实时精准决策。在任何自动驾驶系统中，避免与行人发生碰撞均是首要任务，因此行人检测成为此类系统感知模块的核心组成部分之一。当前最先进的行人检测方法存在两大关键问题：其一，推理时间较长，影响了整个感知模块的效率；其二，在面对小尺寸及严重遮挡行人时，检测性能显著下降。为此，本文提出一种新型无锚框（anchor-free）行人检测架构——局部语义特征混合器（Localized Semantic Feature Mixers, LSFM）。该架构采用我们提出的超像素金字塔池化（Super Pixel Pyramid Pooling, SP3）模块，替代传统计算开销较大的特征金字塔网络（Feature Pyramid Networks, FPN）进行特征编码，显著降低了计算复杂度。此外，我们设计了一种基于MLPMixer的密集焦点检测网络（Dense Focal Detection Network）作为轻量化检测头，相较现有方法大幅减少了计算负担与推理时间。为进一步提升所提架构的性能，我们引入并优化了Mixup数据增强策略，该方法在小尺寸及严重遮挡场景下显著提升了检测效果。我们在多个公认的标准交通场景行人检测数据集上对LSFM进行了全面评估。实验结果表明，LSFM在Caltech、City Persons、Euro City Persons以及TJU-Traffic-Pedestrian等数据集上均达到了当前最优（state-of-the-art）的检测性能，同时平均推理时间缩短了55%。更为重要的是，LSFM首次在行人检测领域超越了人类专家的基准表现。最后，我们进行了跨数据集的泛化能力评估，结果证明LSFM具有出色的泛化性能，能够有效适应未见数据，展现出良好的实际应用潜力。

源 PDF