
摘要
尽管端到端自动驾驶模型展现出良好的效果,但其实际部署往往受到模型规模庞大、依赖昂贵的激光雷达(LiDAR)传感器以及计算密集的鸟瞰图(BEV)特征表示的限制。这使得它们在仅配备摄像头的量产车型中难以扩展。为了解决这些挑战,我们提出了 PRIX(从原始像素进行规划)。我们的新型且高效的端到端驾驶架构仅使用摄像头数据,无需显式的BEV表示,也不依赖LiDAR。PRIX通过结合视觉特征提取器与生成式规划头,直接从原始像素输入中预测出安全轨迹。我们架构的核心组件是上下文感知的重新校准Transformer(Context-aware Recalibration Transformer, CaRT),这是一种专门设计用于有效增强多层级视觉特征以实现更稳健规划的新模块。通过全面的实验验证,我们证明PRIX在NavSim和nuScenes基准测试中达到了最先进水平,其性能可与更大规模的多模态扩散规划器相媲美,同时在推理速度和模型规模方面具有显著优势,使其成为实际部署的可行方案。我们的工作已开源,代码地址为 https://maxiuw.github.io/prix。