2 个月前
将泛化引入深度多视图行人检测
Vora, Jeet ; Dutta, Swetanjal ; Jain, Kanishk ; Karthik, Shyamgopal ; Gandhi, Vineet

摘要
多视角检测(MVD)在拥挤环境中的遮挡推理方面表现出色。尽管近期利用深度学习的研究在该领域取得了显著进展,但它们忽视了泛化能力这一方面,这使得这些模型在实际应用中难以部署。我们工作的主要创新点在于形式化了三种关键的泛化形式,并提出了相应的实验来评估它们:i) 相机数量变化下的泛化能力,ii) 相机位置变化下的泛化能力,以及 iii) 新场景下的泛化能力。我们发现现有的最先进模型由于过度拟合单一场景和相机配置而表现出较差的泛化性能。为了解决这些问题:(a) 我们提出了一种新的广义多视角检测(GMVD)数据集,该数据集融合了不同时间段、不同相机配置和不同数量相机的多样化场景;(b) 我们讨论了实现MVD泛化的必要属性,并提出了一种基础模型以纳入这些属性。我们在WildTrack、MultiViewX和GMVD数据集上进行了一系列全面的实验,以证明评估MVD方法泛化能力的必要性,并展示所提方法的有效性。代码和所提数据集可在https://github.com/jeetv/GMVD 获取。