
摘要
在拥挤场景中,通过融合多视角相机进行检测可以减轻遮挡的影响。在多视角系统中,面对由遮挡引起的模糊性时,我们需要回答两个关键问题。首先,我们如何聚合来自多个视角的线索?其次,我们如何聚合因遮挡而变得不可靠的二维和三维空间信息?为了解决这些问题,我们提出了一种新颖的多视角检测系统——MVDet。对于多视角聚合,现有的方法通常是在图像平面上合并锚框特征,这可能会由于锚框形状和大小不准确而限制性能。相比之下,我们采用无锚框的方法,通过将特征图投影到地面平面(鸟瞰视图)上来聚合多视角信息。为了进一步解决剩余的空间模糊性问题,我们在地面平面特征图上应用大核卷积,并从检测峰值推断位置。我们的整个模型是端到端可学习的,并在标准的Wildtrack数据集上实现了88.2%的MODA(Multiple Object Detection Accuracy),比现有最先进方法高出14.1%。此外,我们在新引入的合成数据集MultiviewX上对MVDet进行了详细分析,该数据集允许我们控制遮挡的程度。代码和MultiviewX数据集可在https://github.com/hou-yz/MVDet获取。