2 个月前
Simple-BEV:多传感器BEV感知中真正重要的因素是什么?
Harley, Adam W. ; Fang, Zhaoyuan ; Li, Jie ; Ambrus, Rares ; Fragkiadaki, Katerina

摘要
构建不依赖高密度激光雷达(LiDAR)的自动驾驶车辆三维感知系统是一个关键的研究问题,因为激光雷达系统的成本远高于摄像头和其他传感器。近期的研究开发了多种仅使用摄像头的方法,这些方法通过可微分的方式将多摄像头图像中的特征“提升”到二维地面平面,从而生成车辆周围三维空间的“鸟瞰图”(BEV)特征表示。尽管这一研究方向已经产生了许多新颖的“提升”方法,但我们注意到训练设置中的其他细节也在发生变化,这使得顶级方法中真正重要的因素变得模糊不清。此外,我们观察到仅使用摄像头并不是现实世界的约束条件,考虑到雷达等额外传感器早已被集成到实际车辆中。在本文中,我们首先尝试阐明BEV感知模型设计和训练协议中的高影响力因素。我们发现批量大小和输入分辨率对性能有显著影响,而“提升”策略的影响则较为有限——即使是一个简单的无参数提升器也能表现良好。其次,我们展示了雷达数据可以显著提高性能,有助于缩小仅使用摄像头系统与配备激光雷达系统的差距。我们分析了导致良好性能的雷达使用细节,并邀请学术界重新考虑这一通常被忽视的传感器平台部分。