8 个月前

摘要

自动驾驶车辆感知的目标是从多个传感器中提取语义表示，并将这些表示融合到一个“鸟瞰图”坐标系中，供运动规划使用。我们提出了一种新的端到端架构，可以直接从任意数量的摄像头图像数据中提取场景的鸟瞰图表示。我们的方法的核心思想是将每张图像单独“提升”为每个摄像头的特征锥体，然后将所有特征锥体“摊平”到一个栅格化的鸟瞰图网格中。通过在整个摄像头阵列上进行训练，我们提供了证据表明，我们的模型不仅能够学习如何表示图像，还能够将所有摄像头的预测结果融合成一个单一且连贯的场景表示，并且对校准误差具有鲁棒性。在标准的鸟瞰图任务如目标分割和地图分割中，我们的模型优于所有基线和先前的工作。为了实现学习密集表示以支持运动规划的目标，我们展示了由我们的模型推断出的表示可以通过向网络输出的鸟瞰图代价图中“发射”模板轨迹来实现可解释的端到端运动规划。我们在使用激光雷达提供的精确深度信息的模型上对我们的方法进行了基准测试。项目页面及代码：https://nv-tlabs.github.io/lift-splat-shoot 。

源 PDF