DrivingDojo 数据集是由中国科学院自动化研究所模式识别新实验室、中国科学院大学人工智能学院、美团公司和中国科学院香港人工智能与机器人中心于 2024 年联合创建的,相关论文成果为「DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model」,旨在推进交互式和知识丰富的驾驶世界模型的发展。这个数据集包含约 18k 个视频片段,专门模拟真实世界的视觉交互,涵盖了丰富的驾驶动作、多智能体交互和开放世界的驾驶知识。
DrivingDojo 数据集的特点在于其完整性的动作、多主体交互以及丰富的开放世界驾驶知识。它不仅包括了加速、紧急刹车、停车启动等纵向操作,还包括了掉头、超车和变道等横向操作。此外,数据集特别设计了包含大量多主体交互轨迹的视频,例如插入、切断和正面汇入等。 DrivingDojo 还包含了稀有事件的视频,如穿越动物、掉落的瓶子和路面碎片,这些都是在现实世界驾驶场景中可能遇到的。
数据集的视频分辨率为 1920×1080,帧率为 5fps,视频片段来自中国的主要城市,包括北京、深圳、徐州等,并在不同的天气条件和日光条件下录制。所有视频都与同步相机姿势配对,这些姿势来自车载 HD-Map 驱动的高精度定位堆栈。 DrivingDojo-Open 子集中的视频还与关于每个视频中发生的罕见事件的文本描述配对。
为了衡量驾驶场景建模的进展,DrivingDojo 数据集还提出了一个新的行动指令跟随 (AIF) 基准,用以评估世界模型执行合理未来滚动预测的能力。这个基准通过计算生成视频中动作与给定指令的误差来评估长期运动可控性。
总体而言,DrivingDojo 数据集为自动驾驶领域提供了一个宝贵的资源,旨在提升世界模型在复杂驾驶环境中的预测和控制能力。
做种 1
下载中 0
已完成 7
总下载 16