8 个月前

摘要

构建不依赖高密度激光雷达（LiDAR）的自动驾驶车辆三维感知系统是一个关键的研究问题，因为激光雷达系统的成本远高于摄像头和其他传感器。近期的研究开发了多种仅使用摄像头的方法，这些方法通过可微分的方式将多摄像头图像中的特征“提升”到二维地面平面，从而生成车辆周围三维空间的“鸟瞰图”（BEV）特征表示。尽管这一研究方向已经产生了许多新颖的“提升”方法，但我们注意到训练设置中的其他细节也在发生变化，这使得顶级方法中真正重要的因素变得模糊不清。此外，我们观察到仅使用摄像头并不是现实世界的约束条件，考虑到雷达等额外传感器早已被集成到实际车辆中。在本文中，我们首先尝试阐明BEV感知模型设计和训练协议中的高影响力因素。我们发现批量大小和输入分辨率对性能有显著影响，而“提升”策略的影响则较为有限——即使是一个简单的无参数提升器也能表现良好。其次，我们展示了雷达数据可以显著提高性能，有助于缩小仅使用摄像头系统与配备激光雷达系统的差距。我们分析了导致良好性能的雷达使用细节，并邀请学术界重新考虑这一通常被忽视的传感器平台部分。

源 PDF 查看代码