
摘要
多视角检测通过整合多个摄像头的视图来处理遮挡问题,其核心问题是多视角聚合。给定从多个视图投影到同一地面平面的特征图,现有最先进的方法通过卷积来解决这一问题,而卷积在不同物体位置上应用相同的计算。然而,这种平移不变的行为可能并不是最佳选择,因为物体特征会根据其位置和摄像头的不同经历各种投影变形。本文中,我们提出了一种新的多视角检测器——MVDeTr,该检测器采用了一种新引入的阴影变换器来聚合多视角信息。与卷积不同,阴影变换器在不同的位置和摄像头下以不同的方式关注,从而应对各种类似阴影的变形。我们提出了一种有效的训练方案,其中包括一种新的视图一致性数据增强方法,该方法在保持多视角一致性的同时应用随机增强。在两个多视角检测基准测试中,我们的系统报告了最新的最高精度。代码可在 https://github.com/hou-yz/MVDeTr 获取。