
自动驾驶系统高度依赖底层的感知模块,该模块必须在保证高性能的同时具备高效率,以实现实时精准决策。在任何自动驾驶系统中,避免与行人发生碰撞均是首要任务,因此行人检测成为此类系统感知模块的核心组成部分之一。当前最先进的行人检测方法存在两大关键问题:其一,推理时间较长,影响了整个感知模块的效率;其二,在面对小尺寸及严重遮挡行人时,检测性能显著下降。为此,本文提出一种新型无锚框(anchor-free)行人检测架构——局部语义特征混合器(Localized Semantic Feature Mixers, LSFM)。该架构采用我们提出的超像素金字塔池化(Super Pixel Pyramid Pooling, SP3)模块,替代传统计算开销较大的特征金字塔网络(Feature Pyramid Networks, FPN)进行特征编码,显著降低了计算复杂度。此外,我们设计了一种基于MLPMixer的密集焦点检测网络(Dense Focal Detection Network)作为轻量化检测头,相较现有方法大幅减少了计算负担与推理时间。为进一步提升所提架构的性能,我们引入并优化了Mixup数据增强策略,该方法在小尺寸及严重遮挡场景下显著提升了检测效果。我们在多个公认的标准交通场景行人检测数据集上对LSFM进行了全面评估。实验结果表明,LSFM在Caltech、City Persons、Euro City Persons以及TJU-Traffic-Pedestrian等数据集上均达到了当前最优(state-of-the-art)的检测性能,同时平均推理时间缩短了55%。更为重要的是,LSFM首次在行人检测领域超越了人类专家的基准表现。最后,我们进行了跨数据集的泛化能力评估,结果证明LSFM具有出色的泛化性能,能够有效适应未见数据,展现出良好的实际应用潜力。