
摘要
我们提出了一种简单而高效的方法,可将OpenAI的GPT-3.5模型转化为自动驾驶车辆中可靠的动作规划器。动作规划是自动驾驶领域的核心挑战之一,其目标是生成一条安全且舒适的驾驶轨迹。现有的动作规划方法主要依赖启发式策略来预测行驶轨迹,但在面对新型或未见过的驾驶场景时,其泛化能力明显不足。本文提出一种新颖的动作规划方法,充分利用大型语言模型(Large Language Models, LLMs)所具备的强大推理能力与潜在的泛化性能。本方法的核心思想在于将动作规划问题重新建模为语言建模问题,这一视角此前尚未被探索。具体而言,我们将规划器的输入与输出表示为语言标记(tokens),并借助LLM通过坐标位置的自然语言描述生成驾驶轨迹。此外,我们提出一种创新的“提示-推理-微调”(prompting-reasoning-finetuning)策略,以激发LLM在数值推理方面的潜力。借助该策略,LLM不仅能生成高精度的轨迹坐标,还能以自然语言形式阐述其内部决策过程,从而实现可解释性。我们在大规模nuScenes数据集上对所提方法进行了评估,大量实验结果充分验证了基于GPT的规划器在有效性、泛化能力以及可解释性方面的优越表现。相关代码现已开源,地址为:https://github.com/PointsCoder/GPT-Driver。