19 hours ago
自动驾驶中视觉-语言-行为模型的综述
Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong

摘要
多模态大语言模型(MLLM)的迅速发展为视觉-语言-行动(VLA)范式铺平了道路,该范式在一个统一的策略中集成了视觉感知、自然语言理解和控制功能。自动驾驶领域的研究人员正在积极将这些方法应用于车辆领域。这类模型有望使自动驾驶汽车能够解释高层次指令,对复杂的交通场景进行推理,并自主做出决策。然而,相关文献仍然分散且迅速扩展。本综述首次全面概述了用于自动驾驶的视觉-语言-行动模型(VLA4AD)。我们(i)形式化了近期工作中共享的架构构建模块,(ii)追溯了从早期解释器到以推理为中心的VLA模型的发展历程,(iii)根据VLA在自动驾驶领域的进展比较了20多个代表性模型。此外,我们还整合了现有的数据集和基准测试,强调了同时评估驾驶安全、准确性和解释质量的协议。最后,我们详细讨论了开放性挑战——鲁棒性、实时效率和形式验证——并勾勒出VLA4AD未来的研究方向。本综述为推进可解释的社会对齐自动驾驶汽车提供了一个简洁而完整的参考。GitHub仓库地址为 SicongJiang/Awesome-VLA4AD。