
摘要
两阶段检测器在目标检测及行人检测任务中均处于当前最先进水平。然而,现有的两阶段检测器效率较低,因其在多个步骤中进行边界框回归,包括区域建议网络(Region Proposal Network, RPN)和边界框头部(Bounding Box Head)。此外,基于锚点(anchor-based)的区域建议网络在训练过程中计算开销较大。为此,我们提出F2DNet,一种新颖的两阶段检测架构,通过用我们提出的焦点检测网络(Focal Detection Network)替代原有的区域建议网络,并以快速抑制头部(Fast Suppression Head)取代传统的边界框头部,有效消除了现有两阶段检测器中的冗余计算。我们在多个主流行人检测数据集上对F2DNet进行了全面评估,与当前最先进的检测器进行了深入对比,并开展了跨数据集的泛化性测试,以验证模型在未见数据上的适应能力。实验结果表明,当仅在单一数据集上训练时,F2DNet在City Persons、Caltech Pedestrian和Euro City Persons数据集上的MR-2(最大召回率误差,即误检率)分别达到8.7%、2.2%和6.1%。在Caltech Pedestrian与City Persons数据集的严重遮挡场景下,通过渐进式微调(progressive fine-tuning),F2DNet的MR-2分别提升至20.4%和26.2%,展现出优异的鲁棒性。此外,与当前最先进方法相比,F2DNet在推理速度上具有显著优势,大幅降低了推理时间。相关代码与训练好的模型已开源,可访问 https://github.com/AbdulHannanKhan/F2DNet 获取。