
摘要
基于基础设施的高效鸟瞰图(BEV)目标检测能够显著提升对交通场景的理解能力,并促进车与基础设施(V2I)之间的协同感知。然而,安装在基础设施上的摄像头通常具有多种不同的朝向姿态,而现有的BEV检测方法普遍依赖于精确的相机标定参数,这在实际应用中难以实现,因为不可避免的自然因素(如风力、积雪等)会导致标定漂移。针对这一问题,本文提出一种无需标定的鸟瞰图表示网络(Calibration-free BEV Representation, CBR),该方法在不依赖相机标定参数和额外深度监督的前提下,实现了基于BEV表示的三维目标检测。具体而言,我们设计了两个多层感知机(MLP),在框引导的前景监督下,将透视视角特征解耦为前视图与鸟瞰图特征。随后,通过一个跨视角特征融合模块,依据特征相似性对正交视角间的特征进行匹配,并利用前视图特征对BEV特征进行增强。在DAIR-V2X数据集上的实验结果表明,CBR在无需任何相机参数的情况下仍能取得可接受的检测性能,且天然不受标定噪声影响。我们期望CBR能够成为未来面向基础设施感知实际挑战研究的重要基准方法。