6 个月前

摘要

基于基础设施的高效鸟瞰图（BEV）目标检测能够显著提升对交通场景的理解能力，并促进车与基础设施（V2I）之间的协同感知。然而，安装在基础设施上的摄像头通常具有多种不同的朝向姿态，而现有的BEV检测方法普遍依赖于精确的相机标定参数，这在实际应用中难以实现，因为不可避免的自然因素（如风力、积雪等）会导致标定漂移。针对这一问题，本文提出一种无需标定的鸟瞰图表示网络（Calibration-free BEV Representation, CBR），该方法在不依赖相机标定参数和额外深度监督的前提下，实现了基于BEV表示的三维目标检测。具体而言，我们设计了两个多层感知机（MLP），在框引导的前景监督下，将透视视角特征解耦为前视图与鸟瞰图特征。随后，通过一个跨视角特征融合模块，依据特征相似性对正交视角间的特征进行匹配，并利用前视图特征对BEV特征进行增强。在DAIR-V2X数据集上的实验结果表明，CBR在无需任何相机参数的情况下仍能取得可接受的检测性能，且天然不受标定噪声影响。我们期望CBR能够成为未来面向基础设施感知实际挑战研究的重要基准方法。

源 PDF