LatentVLA:自动驾驶新框架引入潜在推理模型
针对自动驾驶模型过度依赖自然语言推理的局限,研究人员提出了 LatentVLA 架构。该模型摒弃了 AlpamayoR1 等依赖昂贵人工标注数据链的方法,转而利用无标签原始数据在潜在空间进行推理,以解决自然语言反应滞后且效率低下的问题。 LatentVLA 的核心在于将连续动作离散化。模型采用编码器和解码器架构,通过预测下一帧画面来反向推导车辆行为,即所谓的“逆动力学”建模。为解决环境噪声干扰,该架构引入两阶段机制,分别提取环境动态和车辆自身动作,并利用矢量量化技术将动作映射为仅含 16 个离散指令的潜在空间,相比传统 2048 个指令的模型,显著降低了学习难度并保留了大语言模型的预训练知识。 在训练阶段,研究人员利用知识蒸馏技术,让小参数决策模型模仿大型视觉语言模型的行为,从而在保持实时性能的同时整合高级推理能力。该架构被集成至 Transfuser 等端到端自动驾驶系统中进行测试。 实验显示,在 NavSim 基准测试中,LatentVLA 取得了优于传统端到端模型和基于大语言模型架构的优异结果。其中,蒸馏版模型的综合驾驶评分提升了 0.4%,未蒸馏版提升 0.3%。然而,评测主要基于非交互式规划模拟,这可能导致结果未能完全反映复杂交互场景下的真实能力。作者指出,开放循环测试无法充分验证模型在应对动态环境和多模态决策时的鲁棒性,未来需在闭环交互式模拟器中进一步验证。总体而言,LatentVLA 为无需自然语言标注的自动驾驶推理提供了创新路径,证明了在潜在空间进行高层推理的潜力。
