Command Palette
Search for a command to run...

摘要
近年来,驾驶世界模型的进展使得高质量RGB视频或多模态视频的可控生成成为可能。现有方法主要关注生成质量与可控性等指标,但往往忽视了对下游感知任务的评估,而这些任务对于自动驾驶系统的性能而言至关重要。现有方法通常采用先在合成数据上预训练、再在真实数据上微调的训练策略,其训练轮次是仅使用真实数据的基线方法的两倍。当我们将基线方法的训练轮次也增加一倍时,合成数据带来的优势便变得微乎其微。为充分验证合成数据的实际价值,我们提出Dream4Drive——一种专为提升下游感知任务而设计的新型合成数据生成框架。Dream4Drive首先将输入视频分解为多个具备3D感知能力的引导图,随后将3D资产渲染到这些引导图上。最后,通过微调驾驶世界模型,生成编辑后的多视角逼真视频,可用于训练下游感知模型。Dream4Drive实现了大规模、多视角罕见场景(corner cases)的前所未有的灵活生成能力,显著提升了自动驾驶系统对边缘场景的感知能力。为推动未来研究,我们还发布了一个大规模3D资产数据集——DriveObj3D,涵盖驾驶场景中的典型类别,支持多样化的3D感知视频编辑。通过大量实验,我们验证了Dream4Drive在不同训练轮次下均能有效提升下游感知模型的性能。项目主页:https://wm-research.github.io/Dream4Drive/