清华大学AIR团队发布全球首个个性化端到端自动驾驶真实世界数据集StyleDrive,推动AI驾驶更“像人”
清华大学智能产业研究院(AIR)聂再清教授课题组联合伦敦国王学院、曼彻斯特大学与香港大学,推出全球首个面向个性化端到端自动驾驶的大规模真实世界数据集与评测体系——StyleDrive。该成果标志着自动驾驶技术向“以人为本”迈出了关键一步,首次实现了在真实交通环境中对驾驶风格的精准建模与评估。 随着多模态大模型在视觉理解与推理任务中表现日益出色,其“是否真正理解”成为核心挑战。为此,AIR执行院长刘洋教授团队联合清华大学计算机系、复旦大学,构建了3D密室逃脱环境EscapeCraft,用以测试大模型在复杂视觉任务中的推理能力。测试结果令人警醒:即便GPT-4o等先进模型,也常出现“看到门却绕墙走”“捡钥匙却不会用”等明显认知断层,暴露出“看见≠理解”的系统性缺陷,凸显了对真实推理能力评估体系的迫切需求。 在此背景下,StyleDrive应运而生。传统自动驾驶系统多依赖模块化设计,虽可实现一定程度的个性化定制,但受限于模拟环境或特定场景,难以在真实动态交通中泛化。而端到端自动驾驶(E2EAD)具备更强的统一优化潜力,却长期忽视驾驶风格差异,导致车辆行为趋于“平均化”,缺乏个性特征。 StyleDrive填补了这一空白。研究团队构建了首个大规模真实世界个性化E2EAD数据集,涵盖城市与乡村多种复杂道路场景,并基于融合规则与场景理解的标注框架,实现驾驶倾向的客观与主观双重标注。该框架结合静态道路拓扑、动态车辆轨迹,通过微调视觉语言模型(VLM)解析上下文语义,再融合行为分布分析与规则启发,最终通过人工校验确保标签可靠性。 数据显示,数据集中激进型驾驶者占比14.6%,保守型占5.5%,反映出真实驾驶风格的多样性。在相同场景下,不同倾向的轨迹呈现出显著差异——激进者更倾向快速变道与近距离跟车,保守者则保持更大车距、反应更谨慎,直观展现了风格化行为的可区分性。 为系统评估模型性能,团队同步推出StyleDrive Benchmark与全新指标SM-PDMS(Style-Modulated Predictive Driver Model Score)。该指标在传统安全与合规性基础上,引入“行为对齐”机制:根据驾驶倾向动态调整舒适度容忍度、果断性标准与碰撞时间阈值,实现对风格差异的量化衡量。 实验表明,引入驾驶倾向作为条件输入后,模型在行为一致性、可控性与人类行为相似度上均显著提升。在四种主流E2EAD架构中,倾向控制模型不仅更准确地模仿真实人类驾驶轨迹,还能在相同场景下根据指令生成风格迥异的预测路径,实现“像人一样驾驶”的个性化输出。 这一成果已被人工智能顶会AAAI 2026录用并安排口头报告,论文作者包括郝睿阳、荆博文、俞海宝与聂再清。StyleDrive不仅构建了首个真实世界个性化数据集与评测体系,更推动了自动驾驶从“通用智能”迈向“个性智能”的关键转型。未来,团队将持续探索风格可控、安全可信、以人为本的下一代自动驾驶系统,助力智能交通迈向新高度。
