
摘要
多光谱行人检测由于其在许多全天候应用(如视频监控和自动驾驶)中的关键能力,尤其是在光照不足条件下,已逐渐引起研究界的广泛关注。我们在KAIST数据集上建立了一个人类基线,并揭示了当前顶级检测器与人类性能之间仍存在较大差距。为了缩小这一差距,我们提出了一种网络融合架构,该架构包括一个多光谱提议网络用于生成行人提案,以及一个后续的多光谱分类网络用于区分行人实例与难例负样本。统一的网络通过联合优化行人检测和语义分割任务进行学习。最终检测结果是通过整合不同模态及两个阶段的输出获得的。该方法在KAIST数据集上的表现显著优于现有最先进方法,同时保持了快速性。此外,我们为KAIST数据集贡献了一个清理过的训练注释版本,并考察了不同类型注释错误造成的影响。未来对此问题的研究将受益于这个清理过的版本,因为它消除了注释错误的干扰。