
摘要
我们提出了一种用于快速且鲁棒行人检测的深度神经网络融合架构。所提出的网络融合架构支持多个网络并行处理以提高速度。一个单次深度卷积网络被训练作为目标检测器,生成不同大小和遮挡情况下的所有可能的行人候选区域。该网络输出大量的行人候选区域,以覆盖大多数真实行人,但同时也引入了大量误检。接下来,多个深度神经网络并行使用,对这些行人候选区域进行进一步精炼。我们引入了一种基于软拒绝的网络融合方法,将所有网络产生的软度量融合在一起,生成最终的置信度分数。我们的方法在检测小尺寸和遮挡行人方面优于现有的最先进方法。此外,我们还提出了一种将像素级语义分割网络集成到网络融合架构中的方法,以增强行人检测器的效果。该方法在Caltech Pedestrian数据集上的大多数协议中表现优于最先进方法,并在某些协议上取得了显著提升。同时,它也比其他所有方法更快。