StyleDrive: First Real-World Dataset for Personalized End-to-End Autonomous Driving
清华大学智能产业研究院(AIR)聂再清教授课题组联合伦敦国王学院、曼彻斯特大学与香港大学,发布了全球首个面向个性化端到端自动驾驶的大规模真实世界数据集与评测体系——StyleDrive。该成果标志着个性化自动驾驶研究迈入新阶段,使端到端自动驾驶系统(E2EAD)能够像理解一个人一样,根据用户驾驶偏好生成具有风格差异的类人驾驶行为。 近年来,多模态大模型(MLLMs)在图像理解、视频生成等领域取得显著进展,但其在复杂、多步骤的视觉推理任务中是否真正“理解”环境仍存疑问。为评估这一能力,AIR执行院长刘洋教授团队联合清华大学计算机系与复旦大学,推出3D密室逃脱环境EscapeCraft,用于测试大模型在真实视觉场景中的推理与决策能力。实验结果令人警醒:尽管模型能“看到”门、钥匙等关键元素,却常绕着墙走、捡起物品却不会使用,甚至试图“抓沙发”以寻找“暗格”。这些表现并非偶然,而是系统性“看见但未理解”的体现。即便是GPT-4o等先进模型,也仅有少数子任务真正完成,多数结果实为误打误撞。该研究揭示了当前大模型在空间认知与任务规划上的根本性局限。 StyleDrive的提出正是为解决端到端自动驾驶中长期被忽视的个性化问题。在传统模块化自动驾驶系统中,虽已有部分个性化功能,但多依赖特定场景设计或模拟环境中的不真实交互,难以在复杂真实交通中泛化。而端到端自动驾驶具备更强的端到端优化与泛化潜力,却普遍忽略用户驾驶风格,导致输出行为趋于“平均化”,缺乏个性,限制了以人为本的自动驾驶愿景。 为推动该领域发展,StyleDrive团队构建了首个大规模、真实世界、带驾驶倾向标注的E2EAD数据集,并配套标准化评测体系。数据集覆盖城市与乡村道路的多样化场景,通过融合规则与场景理解的标注框架,实现高精度倾向识别。该框架首先提取道路拓扑与车辆运动等静态与动态特征,再利用微调后的视觉语言模型(VLM)理解上下文语义,结合驾驶行为分布分析与规则启发方法,生成客观倾向标签。为应对主观性挑战,进一步通过VLM联合建模场景与行为,生成主观倾向判断,最终经人工校验,确保数据质量。 统计分析显示,数据集中激进驾驶倾向占比14.6%,保守倾向占5.5%,充分覆盖真实用户偏好。在相同场景下,不同驾驶倾向的轨迹差异显著,如图所示,红色(激进)与蓝色(保守)轨迹明显不同,验证了数据集的风格区分能力。 为系统评估模型性能,团队开发StyleDrive Benchmark,一个基于真实场景的仿真评测平台。该平台引入Style-Modulated Predictive Driver Model Score(SM-PDMS)指标,在传统安全与合规性基础上,新增“行为对齐”维度,通过动态调整舒适度、前进度、碰撞时间等阈值,衡量模型是否真正响应驾驶偏好。在四种主流E2EAD架构中引入倾向条件控制后,实验表明,模型在倾向对齐与整体驾驶性能上均显著提升。相比基线模型,倾向控制模型在SM-PDMS指标上表现更优,且开环评估中预测轨迹更接近真实人类行为。 定性结果进一步验证:在相同场景下,输入不同驾驶倾向,模型能生成明显差异的轨迹,如激进、正常与保守模式的对比,充分展示其可控性与风格适应能力。 StyleDrive不仅构建了首个大规模真实世界个性化E2EAD数据集,还提出融合规则与场景理解的标注框架,建立首个专门用于个性化E2EAD的评测基准与SM-PDMS指标体系。实验表明,引入驾驶风格可显著提升模型行为的一致性与可控性,真正实现“更像人的端到端自动驾驶”。 未来,团队期待在个性化建模、跨场景泛化、多用户协同驾驶等方面进一步探索,推动自动驾驶从“技术可行”迈向“以人为本”的新阶段。该成果已被人工智能顶会AAAI 2026录用,并将进行口头报告。项目主页与GitHub地址分别为:https://styledrive.github.io/ 和 https://github.com/AIR-THU/StyleDrive。
