
摘要
卷积神经网络(ConvNets)在行人检测领域近期取得了显著进展,但关于合适的网络架构和训练数据仍存在一些未解决的问题。我们重新审视了CNN的设计,并指出了关键的改进措施,使得普通的Faster R-CNN能够在Caltech数据集上取得最先进的结果。为了从更多和更好的数据中获得进一步的提升,我们引入了CityPersons,这是基于Cityscapes数据集的一组新的行人注释。CityPersons的多样性使我们首次能够训练一个单一的CNN模型,该模型在多个基准测试中表现出良好的泛化能力。此外,通过使用CityPersons进行额外训练,我们在Caltech数据集上使用Faster R-CNN获得了最佳结果,特别是在处理更困难的情况(如严重遮挡和小尺度目标)时表现尤为突出,并且提供了更高的定位精度。